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Lời giới thiệu 


nhiều người trong giới nghiên cứu khoa học quan tâm. Trong thời đại 

Dữ liệu Lớn (Big Data) và dữ liệu đa chiểu, việc khai thác và chuyển hoá 
đữ liệu thành thông tin, và từ thông tin thành kiến thức là một trong những qui 
trình cốt yếu của hoạt động khoa học. Trong quá trình chuyển hoá từ dữ liệu 
sang thông tin, việc ứng dụng đúng các phương pháp phân tích là một sự lựa 
chọn rất quan trọng. Cuốn sách Phân tích dữ liệu với R - Hỏi và Đáp bạn đang 
cầm trên tay sẽ giúp các bạn lựa chọn các phương pháp thích hợp cho phân tích 
đữ liệu, và giúp cho các bạn biến dữ liệu thành thông tin có ích. 


P“ tích dữ liệu đã và đang trở thành một bộ môn khoa học được rất 


Trong quá trình soạn cuốn sách, tôi suy nghĩ nhiều về mô hình chuyển tải 
các phương pháp phân tích, và cuối cùng đi đến quyết định dùng mô hình "vấn 
đáp" Nói cách khác, cuốn sách là một tập hợp những câu hỏi và câu trả lời cụ thể 
cho những vấn để mà giới nghiên cứu khoa học thực nghiệm thường gặp phải. 
Có tất cả 110 câu hỏi và trả lời. Qua kinh nghiệm nghiên cứu thực nghiệm của 
tôi và những tương tác với rất nhiều đồng nghiệp trong quá khứ, tôi nghĩ rằng 
đây là hình thức gần gũi nhất và thiết thực nhất để học về phân tích dữ liệu. 

Nội dung cuốn sách xoay quanh các vấn để mà giới nghiên cứu hay gặp 
hàng ngày. Đó là những vấn để liên quan đến mô tả đữ liệu, kiểm định giả thuyết, 
phân tích liên quan, và phân tích tiên lượng. Từ phân tích mô tả, mô hình hồi 
qui tuyến tính, mô hình hồi qui logistic, mô hình Cox, phân tích sống còn, phân 
tích đa biến, đến ước tính cỡ mẫu đều được trình bày từ những nghiên cứu thực 
tế. Tôi còn dành một nội dung khá lớn cho các phương pháp phân tích bằng biểu 
đổ. Mỗi chủ để sẽ được trình bày qua một số câu hỏi và kèm theo phương pháp 
giải quyết. Do mục tiêu của cuốn sách, tôi không trình bày những lí thuyết đẳng 
sau những phương pháp, mà chỉ bàn sơ qua những thông tin chính đằng sau mỗi 
phương pháp. Do đó, cuốn sách cũng có thể xem là một bổ sung cho những khoá 
học và sách giáo khoa về lí thuyết phân tích thống kê. 
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kê học, R đang trở thành một công cụ chính yếu trong phân tích dữ liệu 

và triển khai các kĩ thuật phân tích hiện đại. Khác với các phần mềm 
thương mại thường được triển khai bằng “menu”, R sử dụng các "package” và 
lệnh (còn gọi là “hàm”). Package là những chương trình chuyên biệt được phát 
triển để thực hiện những mô hình phân tích cụ thể. Mỗi package thường có 
nhiều hàm, và mỗi hàm được viết theo một cú pháp đặc biệt. Do đó, người sử 
dụng R cần phải làm quen với các lệnh và cú pháp liên quan đến các package. 
Trong chương này, chúng tôi sẽ giới thiệu một số cú pháp thường hay được sử 
dụng trong R. 


R: một ngôn ngữ thống kê rất phổ biến trên thế giới. Trong thế giới thống 


Cài đặt R trong máy tính 


Để sử dụng R cho phân tích dữ liệu, chúng ta cẩn tải chương trình cài đặt R 
từ mạng và cài đặt về máy tính. 


'Website để tải R là: 
https://cloud.r-project.org. 
với một phần giao điện như sau: 
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The Comprehensive R Archive Network 











bownload and rnstall R 


|Precompiled binary distributions of the base system and contributed packages, Windows and Mac users 
[most likely want oi do of thoeo vendoos 0E 

* Download R for Linux. 

+ Dow 

+ Download R for Windows 








|R is part of many Linux disuibutions, you should check with your Linux package management system in. 
laddition to the link above. 





Tuỳ vào hệ điểu hành của máy (Linux, OS X hay Windows), bạn đọc có thể 
tải về máy "địa phương” và bấm vào file để thực hiện việc cài đặt. Tất cả các công 
đoạn cần thiết để cài đặt R chỉ tốn khoảng 5 phút. 


1.1. Đối tượng (object) 

R vận hành theo “đối tượng” Đối tượng của R có thể là một cơ sở dữ liệu, 
một biến số, một kết quả tính toán. Đối tượng phải có tên. Trong R, tên của đối 
tượng phân biệt chữ hoa và chữ thường. Ví dụ chúng ta gõ lệnh: 

tuan = (5 + 16) / 12 


thì kết quả của tính toán sẽ được lưu trữ trong đối tượng “tuan” Nếu chúng 
ta tạo ra một đối tượng mới là: 
Tuan = sgrt(1.36 / 2) 


thì cuan và Tuan là hai đối tượng khác nhau. Các đối tượng có thể dùng 
để tính toán: 
Tuan.sum <- tuan + Tuan 


Chú ý rằng trong R, dấu = cũng có thể viết bằng đấu <-. Riêng dấu 
có nghĩa là dấu bằng chính xác. 


1.2. Package 

Như để cập trên, R là tập hợp của nhiều package, và đó cũng là một thể 
mạnh của R. Mỗi package có một chức năng phân tích cụ thể. Chẳng hạn như 
suzviva1 là package dùng cho phân tích sống còn, gợplot2 dùng cho phân 
tích biểu đổ, boot dùng cho phân tích bootstrap, v.v. Trước khi dùng một hàm 
trong package, chúng ta phải "gọi” package đó. Có hai lệnh để gọi package: 
require và 1ibrary. Chẳng hạn như để dùng hàm trong ggp1ot2, chúng 
ta gọi: 





'lpe/fielun heploerg 


1ibrary (ggplot2) 

Nếu package chưa có trong R, chúng ta phải cài đặt trước khi gọi. Lệnh 
install.packages dùng để cài đặt trực tiếp từ mạng. Ví dụ (chú ý là dùng dấu 
ngoặc kép): 

instal1.packages (*psych”) 

require (psych) hoặc 1ibrary (psych) 

Một số package thường hay được sử dụng cho phân tích dữ liệu là như sau: 










































































Tân package Chức năng 
BA, Phương pháp chọn mô hình bằng Bayes 
boot Phương pháp bootstrap. 
car Phân tích hồi qui 
caret Dùng cho machine learning. 
cluster Phân tích cụm 
DescTools Phân tích mô tả bằng chỉ số thống kê và biểu đó. 
dplyr Dùng để quản lí và biền tập dữ liệu 
epiR Phân tích dịch tễ học 
Display Phần tích dịch tễ học và ước tính cỡ mẫu 
forelgn Dùng để đọc các dữ liệu tử Excel, Stata, SAS, SPSS, v.v. 
gợplot2 Biểu đồ phẩm chất cao. 
9gfortify Vẽ biểu đồ với phẩm chất cao 
Hmise Dùng cho việc quản lí và biên tập dữ liệu 
1ned Phân tích mixed-effects model 
MASS Phương pháp thống kê hiện đại 
metafor Phân tích tổng hợp. 
psych Phân tích đa biến và phân tích mô tả (sử dụng trong khoa học xã hội 
và tâm lí học) 
tuy Phân tích và mô hình thống kê 
simpLeboot. Phân tích bootstrap đơn giản 
survival Phân tích sống còn 
tabLes Phân tích bằng bảng số liệu 
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1.3. Cú phápR 

Mỗi lệnh trong R có “văn phạm” chung như là hàm số như sau: 

tên hàm(tham số) 

“tham số” có thể bao gồm biến số hoặc những lựa chọn cụ thể cho một lệnh. 
Chẳng hạn như nếu chúng ta muốn vẽ biểu đồ hộp của một biến số có tên là age, 
thì trước hết chúng ta phải biết tên của hàm (boxplot) và tên của biến số (age): 

boxplot (age) 

Chúng ta có thể thêm các đặc điểm của biểu đổ như màu, tên của trục, v.v. 

boxplot (age, col=“blue”, border=“red”, xlab=“Age“) 

Phần lớn những hàm trong R có cú pháp “tự nhiên” hiểu theo nghĩa gần 
như cú pháp thống kê. Chẳng hạn như để phân tích mô hình hồi qui tuyến tính: 
Yy=ơ+Bx+e 

Trong R, chúng ta viết: 

1m(y ~ x) 

Trong đó, "Im” có nghĩa là hàm linear model (mô hình tuyến tính), dấu ~ có 

nghĩa là “hàm của) và x và y là hai biến liên quan. 


1.4. Đọc dữ liệu vào R 


Một trong những thao tác quan trọng là đọc dữ liệu vào R để phân tích. R 
có thể đọc hầu như bất cứ dữ liệu dưới dạng nào, từ ASCII, Excel đến các phần 
mềm như Stata, SAS, SPSS. Sau khi đọc dữ liệu vào R, chúng ta phải đặt tên cho. 
đữ liệu mà R gọi là data.. £rame. 


Đọc trực tiếp bằng e () 


Đối với những dữ liệu nhỏ, chúng ta có thể đọc trực tiếp bằng hàm c ().. 
Chẳng hạn như nếu chúng ta có 3 cột đữ liệu như sau: 


age sex weight 
18 M 60.3 
21 F 48.5 
35 M 62.0 
50 F 47.2 


Chúng ta có thể tạo ra một data.frame tạm gọi là data như sau: 
age = c(18, 21, 35, 50) 


sex = CÚ NM”, SE”, NM, XE2) 
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weight = c(60.3, 48.5, 62.0, 47.2) 
data = data.frame(age, sex, weight) 
Chú ý trong các lệnh trên là mỗi giá trị cách nhau bằng một dấu phẩy. Ngoài 
ra, các biến phân nhóm (như sex) thì "giá trị” phải để trong ngoặc kép. 
Đọc từ Excel 
Trong thực tế, phần lớn các dữ liệu thường được lưu trữ đưới đạng excel. R. 
có thể đọc trực tiếp từ excel, nhưng đôi khi mắc lỗi khi đọc đữ liệu, nên cách tốt 
nhất là đọc qua dạng csv. Chẳng hạn như chúng ta có đữ liệu hoahau..x1sx, 
để đọc dữ liệu này vào R, cần làm các bước sau đây: 
® Mở hoahau.x1sx và dùng "Save As” (trong excel) để chuyển dữ liệu 
sang dạng csv. Sau khi xong, chúng ta sẽ có file “hoahau.csv”; 
® Dùng hàm read.csv trong R để đọc dữ liệu (chú ý tên của fle trong 
ngoặc kép) và gọi đối tượng là dat: 
dat = read.csv (*hoahau.csv”, header=T) 


® Chú ý trong hàm trên, header=T có nghĩa là dùng dòng thứ nhất của dữ 

liệu làm tên biến số. 

Đọc từ Stata 

Nếu dữ liệu được lưu trữ trong phần mềm Stata, R vẫn có thể đọc được qua. 
package "Foreign” Chẳng hạn như chúng ta có dữ liệu truonghoc.dta trong 
§tata, và để đọc vào R, chúng ta làm các thao tác sau đây: 

® Gọi package foreign: 

1ibrary (foreign) 

® Dùng hàm read.dta trong £ozeiøn để đọc dữ liệu (chú ý tên của file 

trong ngoặc kép) và gọi đối tượng là dat: 
đat = read.dta (*truonghoc.dta”) 

Cách tìm dữ liệu qua £i1e.ciioose () 

Một trong những khó khăn trong việc đọc dữ liệu vào R là tìm file cần 
thiết. Trong môi trường hệ điểu hành và đĩa cứng có quá nhiều folders và những. 
“nhánh” folder, việc tìm file có khi khá nan giải. Chẳng hạn như nếu file có tên là 
“birthwt.csv” được lưu trữ trong “~/Dropbox/Books/Q&A Book/Datasets/Data 
for book) thì hàm R phải viết đẩy đủ là: 

read.csv(“~/Dropbox/Books/Q&A Book/Datasets/Data for book/birthwt.csv”) 
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Rất khó để nhớ tên folder và nhánh folder như trên! Do đó, trong R có hàm 
ñle.choose rất có ích cho việc tìm file cần thiết. Cách dùng hàm này rất đơn giản 
như sau: 

Bước 1, xác định đường dẫn: 

t = file.choose () 

Sau hàm này, máy sẽ mở một cửa sổ để chúng ta có thể tìm file liên quan. 
Sau khi tìm được file liên quan, chúng ta chỉ cần “Open? và đối tượng t sẽ là một 
đường dẫn. Chẳng hạn như t trong ví dụ trên là: 

®~/Dropbox/Books/Q&A Book/Datasets/Data for book/birthwt.csv“ 

Bước 2, dùng read.csv đọc file: 

dat = read.csv (t) 


Hàm attach, detach 





Trước khi thực hiện phân tích dữ liệu, chúng ta cần phải báo cho R biết dữ 
liệu (dataframe) nào đang “active” bằng cách dùng hàm attach, ví dụ: 
attach (dat) 


Nếu không dùng dat nữa, có thể tách khỏi R bằng hàm detach: 
detach (dat) 


1.5. Phân biệt biến số 


Cũng như các chương trình phân tích dữ liệu khác (như SAS, SPSS, Stata), 
R phân biệt số liệu theo các thể loại. Có 2 thể loại chính: 


Biến liên tục (continuous variable): Trong R, các biến này được gọi là 
numeric. Ví dụ như độ tuổi, chiểu cao, cân nặng, v.v. được xem là biến liên tục. 
Chúng ta có thể tính các chỉ số thống kê như số trung bình, độ lệch chuẩn, bách 
phân vị trên các biến liên tục. 


Biến phân nhóm (categorical variable): Trong R, các biến này được gọi là 
Jactor. Ví dụ tiêu biểu là giới tính có giá trị “Male" và *Female” được xem là biến. 
định danh hay biến phân nhóm. Dĩ nhiên, chúng ta không thể tính trung bình và 
độ lệch chuẩn cho các biến này, mà chỉ có thể tính tỉ lệ (phần trăm). 

Cần phải nói thêm rằng, các biến tuy có giá trị là số (như 1, 2, 3) nhưng cũng 
có thể là biến phân nhóm. Các biến này, vì có giá trị số, nên chúng ta có thể tính 
các chỉ số trung bình, độ lệch chuẩn, dù kết quả tính toán hoàn toàn không có 
ý nghĩa. Để báo cho R biết các biến này là ƒacfo, chúng ta cần phải dùng hàm 
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as.factor. Ví dụ, chúng ta có biến education phản ảnh trình độ học vấn: 1 là 
tiểu học, 2 là trung học, và 3 là đại học; để hoán chuyển education sang biến 
factor, chúng ta có thể tạo ra một biến mới, tạm gọi là edu như sau: 


edu = as.factor (education) 


1.6. Làm việc với biến số 

Một cách ngắn gọn, mỗi data.frame trong R là một ma trận. Ma trận có dòng. 
và cột. Do đó, một đataframe có nhiều đòng (observation hay row) và nhiều cột 
(variable hay column). Ví dụ như đataframe data có 4 dòng và 3 biến số: 


age sex weight 


1 18 M_ 60.3 
2 31 P? 48.5 
3 %5 M 62.0 
4 50 F 47.2 


Khi chúng ta gõ dim(data) sẽ có kết quả 4 dòng và 3 cột: 

> dim(data) 

[1] 43 

Chúng ta có thể để cập đến mỗi giá trị trong dataframe bằng công thức ma 
trận. Nên nhớ là trong ma trận, dòng được để cập trước và cột sau. Chẳng hạn 
như (chú ý ngoặc vuông): 

data[1, 3] là giá trị 60.3 (dòng 1, cột 3) 

đata[4, 2] là giá trị F (dòng 4, cột 2) 


data[4, ] báo cáo số liệu dòng số 4 
đata[, 2] báo cáo số liệu của cột số 2 
Dấu đollar (S) 


Mỗi dataframe có nhiều cột, và đấu $ dùng để để cập tên biến gắn liển với 
một dataframe. Chẳng hạn như khi chúng ta viết data$age, thì cú pháp này có 
nghĩa là age là tên biến số trong dataframe data. 

Cách dùng § rất quan trọng vì nếu có nhiều dataframe cùng được vận hành, 
thì dấu $ dùng để phân biệt biến số nào thuộc về dataframe nào. Ví dụ sau đây 
sẽ thấy hiệu quả của việc dùng dấu $. Trong ví dụ thứ nhất, chúng ta có 4 biến số 

(v1, v2, v3, v4) và tính tổng số (sum) : 

V1 = c(1,3,5) 
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v2 = c(3,4,7) 
v3 = c(6,7,8) 
v4 = c(7,9,0) 


dat = data.£rame (v1,v2,v3, v4) 
attach (dat) 

dat§sum = dat$vi + dat$v3 
suml = v1 + v3 

dat 

Kết quả là: 

> dat 

v1 v2 v3 v4 sum 

1 1 3 67 7 

2 3 4 7 9 10 

3.5 7 8 0 13 


Chú ý là dataframe dat không có biến sum1 ! 


1.7. Mã hoá (coding) 

Trong khi phân tích dữ liệu, chúng ta có khi phải mã hoá dữ liệu. Mã hoá 
là một hình thức hoán chuyển đữ liệu. Chẳng hạn như trong dataframe data 
trên, thay vì sex có giá trị là "E” và "M” chúng ta có thể mã hoá thành số 1 và 2 
và đặt trong một biến mới có tên là gender. 





Các hàm dưới đây tạo ra một dataframe có tên là ata: 

age = c(18, 21, 35, 50) 

Sex = CÍNM?, SE”, NMƯ, SE”) 

weight = c(60.3, 48.5, 62.0, 47.2) 

data = data.frame(age, sex, weight) 

Chúng ta muốn tạo ra một biến mới có tên là gender (gắn liền với data), 
với điểu kiện là nếu sex là “M” thì gender là 1, và sex là “F” thì gender là 2: 

data$gender[sex==”M”] <- 1 

data$gender [sex==“F”] <- 2 

data 

Trong ví dụ trên (biến có hai giá trị) chúng ta cũng có thể dùng hàm i £e1se 
đơn giản hơn: 


data$§gender = ifelse(data$sex==”M”, 1, 2) 
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Hàm trên có thể đọc là: "nếu sex có giá trị 'M” thì gender có giá trị 1; còn lại 
là gender có giá trị 2” 

Kết quả là đata có thêm một biến mới như sau: 

> data 


age sex welght gender 


3x 1 M 60.3 1 
2 21 F 48.5 2 
3 35 M 62.0 1 
4 50 z 47.2 2 


Tương tự, chúng ta có thể tạo ra biến mới gọi là agegroup (nhóm tuổi) 
theo điểu kiện trên và dưới 20 tuổi như sau: 

data$agegroup[age <= 20] <- *Under 20“ 

đata$agegroup[age > 20] <- *Over 20” 

Lệnh trên có nghĩa là biến agegroup là một biến phân nhóm có hai nhóm. 
đưới 20 tuổi và trên 20 tuổi: 

> data 


age sex weight gender agegroup 


1 18 M 60.3 1 Under 20 
2 21 hn 48.5 2 Over 20 
3 35 M 62.0 1 Over 20 
450 F 47.2 2 Over 20 


Thỉnh thoảng, chúng ta cẩn phân chia một biến liên tục thành nhiều nhóm. 
Chẳng hạn như biến body ?mass index (bmi) là một biến liên tục, có thể chia 
thành 3 nhóm: thiếu cân, bình thường, quá cân, và béo phì theo tiêu chuẩn: 


bmi < 18.5 là thiếu cân 

bmi từ 18.5 đến 24.9 là bình thường 
bmi từ 25.0 đến 29.9 là quá cân 
bmi bằng hoặc trên 30 là béo phì 


Trong R, chúng ta cũng có thể tạo ra một biến mới, tạm gọi là "obesity” như 
Sau: 








obesity[bmi < 18.5] = “Underweil 
©besity[bmi >= 18.5 & bmi <= 24.9] = “Normal” 
obesity[bmi >= 25.0 & bmi <= 29.9] = “Overweight” 
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obesity[bmi >= 30.0] = “Obese* 


Chú ý biến obesity là một ƒacfor. 


1.8. ifelse 
Đối với phân thành 2 nhóm, cú pháp đơn giản hơn. Chỉ cần ifelse là đủ. Ví 
dụ: chúng ta muốn chia bmi thành hai nhóm béo phì và không béo phì theo tiêu 
chuẩn như sau: 
nếu bmi >= 30 thì obesity là béo phì 
nếu bmi < 30 thì obesity là không béo phì 
Cách triển khai trong R là: 
obesity = 1flese(bmi >= 30.0, “Obese*, “Non-obese*) 


1.9. Làm việc với dataframe 

Hàm subset 

Trong phân tích dữ liệu, có khi do nhu cẩu khai thác, chúng ta chỉ làm việc 
với một phần của dữ liệu. Hàm subset trong R có thể giúp chúng ta chọn phần 
của dữ liệu để phân tích. Chẳng hạn như trong dataframe data trên, chúng ta 
muốn làm việc trên nhóm nữ và tạo ra một dataframe mới tạm gọi là £em: 

fem = subset(data, sex==“F“) 


Hàm dưới đây tạo ra một dataframe mới với điều kiện là nam trên 20 tuổi: 

male20 = subset (data, sex==”M” § age>20) 

Hàm merge 

Trong nhiều trường hợp chúng ta có hai hay nhiều hơn hai dataframe, và 
chúng ta muốn hợp nhất thành một dataframe để tiện phân tích. Dĩ nhiên, hai 
đữ liệu phải có chung một biến số để hợp nhất. Ví dụ như chúng ta có dat1 
đưới đây gồm 4 dòng và 2 cột: 

id = c(1,2,3,4) 

Sex = C(M“,“F“,"M“,“F”) 

datl = data.frame (id, sex) 

và dat2 gồm có 5 dòng với 2 cột. Chú ý cả hai dataframe có cùng một cột 
chung là ¡d. 

id = c(1,2,3,4,5) 

age = c(21,34,45,32,18) 


'Rlpe/fielun heploerg 


dat2 = data.frame (id,age) 


Để hợp nhất 2 dataframe, chúng ta dùng hàm me+xge như sau: 
dat3 = merge(datl, dat2, by=”id”) 
dat4 = merge(datl, dat2, by=”id“, all.x=T, all.y=T) 
Kết quả của dat3. Chú ý dataframe này chỉ có 4 dòng, vì dòng 5 của dat2 

không có id trong đdat1: 
> dat3 

id sex age 

1 21 

34 

45 

32 


c0 MB 
"mm. 


2 
3 
4 


Kết quả của đat4 sẽ có 5 dòng, nhưng biến sex có 1 giá trị trống (NA): 


> dat4 

id sex age 
1 1 M 21 
§.. F .34 
3 3 M 45 
4 4 F32 
5 5 <NA> 18 


1.10. Hoán chuyển dataframe 
me 1t: Hoán chuyển từ cột sang dòng. 
Giả dụ chúng ta có dữ liệu đạt của 4 đối tượng nghiên cứu, và mỗi đối tượng 
được đo lường 3 lần (đay1, đay2, đay3) như sau: 
> dat 
id sex group đay1 day2 day3 


3 1 M 1 15 17 19 
& SẼ ba 1 16 15 20 
3 3 M 2 21 23 19 
4 4 + 2 31 35 33 


Nhưng để phân tích phương sai, chúng ta cần hoán chuyển sang cột như sau: 
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id sex group day value 


1M 1 đay1 15 
1M 1 day2 16 
AE M 1 day3 21 
3F 1 day! 16 
2£ 1 day2 15 
2F 1 day3 20 


Để đạt mục đích trên, chúng ta dùng hàm me1 t trong package reshape2 
như sau: 

xequire (reshape2). 

d = melt(dat, id=c(*id“, *sex”, *group“), measure. 

vars=c(*day1“, *day2“, *day3“)) 

cast: Hoán chuyển từ dòng sang cột 


Thỉnh thoảng, chúng ta cẩn chuyển dataframe từ dòng sang cột. Chẳng hạn 
như đữ liệu đ trên đang ở dạng: 


>d 

id sex group variable value 
1 1 M 1 day! — 15 
2 2 + 1 đay1 — 16 
3 3M 2 day! 21 
4A4 2 day! 31 
51 M 1 day2 — 17 
6 2 1 đay2 — 15 
763M 2 day2 — 23 
8.4 £ 2 day2 — 35 
9 1M 1 day3 19 
10.2 E 1 day3 — 20 
11 3M 2 day3 — 19 
12 4 F 2 day3 — 33 


Để chuyển sang 3 cột cho 3 ngày, chúng ta dùng hàm cast trong package 
+reshape như sau: 

1ibrary (reshape) 

d2 = cast(d, id+sextgroup ~ variable) 
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1.11. Một số hàm có ích 

Trong việc sắp xếp dữ liệu và mô phỏng, R có một số hàm giúp chúng ta làm 
việc có năng suất cao. Những hàm này tự động hoá một số chức năng, và có thể 
ứng dụng trong nhiều tình huống, đặc biệt là mô phỏng. 





seq()_ là hàm dùng để tạo ra một dãy số liệu. Ví dụ: = seq (f£rom=1, 
to=10, by=0.5) sẽ tạo ra một biến số x có giá trị từ 1 đến 10, với khoảng 
cách là 0.5. Nói cách khác, x là một vector: 1.0, 1.5, 2.0, 2.5, ..., 10.0. 

rep () là hàm lặp lại một đối tượng nhiều lần. Chẳng hạn như chúng ta 
muốn tạo ra một biến số group. với 10 giá trị "A? chúng ta có thể dùng rep như 
Sau: 

group = rep(*A”, 10) 

Hàm dưới đây sẽ tạo ra biến số group với 10 giá trị "A” và 15 giá trị “B”: 

group = c(rep(*A”, 10), rep(*B”, 15) 

Hàm dưới đây sẽ tạo ra biến số va 1 với 10 giá trị 1,2 lặp lại 5 lần: 

val = rep(c(1,2), 5) 

> val 

(111212121212 

gi()_ là hàm dùng để tạo ra một biến mang tính phân nhóm (categorical 
variable). Một vài ví dụ dưới đây sẽ minh hoạ cho cách sử dụng: 

> g1(1, 4) 

[1] 1111 

Levels: 1 


> g1(3, 5) 
(1]111112222233333 
Levels: 1 2 3 


> gl(2, 5, label=c(*C”, *T”)) 
[1] CCCCCTTTTT 
Levels: € T 
cut ()_ là hàm dùng để chia một biến liên tục thành nhiều nhóm. Chẳng 
hạn như chúng ta có một biến liên tục age như sau: 
x= c(17, 19, 22, 43, 14, 8, 12, 19, 20, 51, 8, 12, 27, 31) 
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và chúng ta muốn chia thành 3 nhóm và đặt kết quả trong biến y, hàm dưới 
đây sẽ đáp ứng nhu cầu đó: 
y = cut(x, 3, labels=c(*Low”, *Medium“, *High”)) 


cbind(x, y) 
> cbind(x, y) 
xy 
[1,] 171 
[2,] 191 
(3,] 22 1 
(4,] 43 3 
(5,] 14 1 
[6,] 81 
[7,4] 121 
(8,] 19 1 
(9,] 20 1 
[10,] 51 3 
[11] 81 
[12,] 121 
(13,] 27 2 
(14,] 31 2 


Hàm cut() chia nhóm một cách “tự động” tức dựa vào bách phân vị. Một 
cách khác là dùng hàm cut2 ()_ trong Hmi sc để chia nhóm theo một giá trị. 
Chẳng hạn như nếu chúng ta muốn chia biến x thành 3 nhóm: dưới 20, từ 20 
đến 30, và trên 30: 

1ibrary (Hmisc) 

yl = cut2(x, c(20, 30)) 

cbind(x, y1) 


> cbind(x, y1) 


xy1 
[1,] 17 1 
(2,] 19 1 
[3,] 22 2 
[4,] 43 3 
[5,] 14 1 
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8 
12 
19 
20 
51 

8 
12 
27 
31 


0N HH 0 R8 nh BH 


1.12. Biên tập biến số và dữ liệu với package `'‹ip1 y +” 


Trong biên tập dữ liệu (data editing), chúng ta thường thực hiện một số thao. 
tác như chọn dòng, chọn cột, thêm cột, sắp xếp thứ tự theo một hay nhiều biến 
số, tính toán đơn giản, lấy mẫu, v.v. Tất cả những thao tác này được triển khai 
trong package dp1yr qua 4 hàm chính như sau: fi1Eer, arrange, select, 
mutate, và sunnrise, Để hiểu tác dụng của các hàm này, chúng ta bắt đầu 
bằng dữ liệu bi chwt như sau: 


read.csv (*birthwt.csv“) 


bw = 
head (bw) 

id 1ow age 
185 0 19 
286 0 33 
3.87 0 20 
4 88 0 21 
5 89 0 18 
6 91 0 21 
Hàm fi1ter () 


1wt race smoke ptl ht ui £tv 


182 
155 
105 
108 
107 
124 


0 HH Ho 0 N 


0 0 
0 0 
1 0 
1 0 
1 0 
0 0 


0 


ecoeoeceeoc 


1 


¬....-..- 


0 
3 
1 
2 
0 
0 


cho phép chúng ta chọn một phần 
data.frame nhưng theo dòng. Chẳng hạn như trong dữ liệu trên, chúng ta muốn. 
chọn những dữ liệu với điểu kiện race là I và bwt dưới 2500, lệnh sau đây sẽ 
đáp ứng yêu cầu đó: 


1ibrary (dp1yr) 


d1 = 
đ1 


Kết quả là: 


filter (bw, race==l, 


bwt<2500) 


bwt 
2523 
2551 
2557 
2594 
2600 
2622 


đữ liệu trong một 
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id low age lwt race smoke ptl ht ui ftv bwt 


1 19 1 29 130 1 0 8 Õ 1T 2 1021 
2 20 1 21 165 1 1 0 10 1 1790 
3 22 1 32 105 1 1 0 00 0 1818 
4 23 1 18 9%1 1 1 #8 Ủ 1 0 1885 
5 26 1 25 92 1 1 0 00 0 1928 
6 27 1 20 150 1 1 0 00 2 1928 
7 29 1 24 155 1 1 1 0 0 0 1936 
§ 33 1 19 102 1 0 0 00 2 2082 
9.34 1 19 112 1 1 0 0 1 0 2084 
10 35 1 26 117 1 1 100 0 2084 
11 36 1 24 138 1 0 0 00 0 2100 
12 42 1 22 130 1 1 1 0 1 1 2187 
13 45 1 17 110 1 1 0 00 0 2225 
14 51 1 20 121 1 1 1 0 1 0 2296 
15 56 1 31 102 1 1 1 00 1 2353 
16 57 1 15 110 1 0 0 0 0 0 2353 
17 65 1 30 142 1 1 100 0 2410 
18 67 1 22 130 1 1 0 00 1 2410 
19 68 1 17 120 1 1 0 00 3 2414 
20 69 1 23 110 1 1 100 0 2424 
21 77 1 26 190 1 + 0 00 0 2466 
22 79 1 28 95 s 1 0 00 2 2466 
23 84 1 21 130 1 Ÿ 0 10 3 2495 


Hàm select() có thể dùng để chọn một phần dữ liệu trong một 
data.frame nhưng theo biến số. Chẳng hạn như trong dữ liệu trên, chúng ta 
muốn chọn ra 3 biến id, bwt và age: 

d2 = select(bw, id, age, bwt) 

head (đ2) 

id age bwt 
85 19 2523 
86 33 2551 
87 20 2557 
88 21 2594 
89 18 2600 
91 21 2622 


ñ Ơ 0 Bè 
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Cũng có thể chọn nhiều biến bằng cách dùng ":” như ví dụ dưới đây chọn. 
các biến số bắt đầu từ race đến biến bwt : 

d2 = select(bw, race:bwt. 

Hàm mutate () có thể dùng để tạo biến số mới dựa trên những biến số 
đang có. Chẳng hạn như biến 1wt (cân nặng của mẹ được tính bằng pound) và 
chúng ta muốn tạo biến số bằng kilogram và gọi biến đó là motherz. wt, và biến 
cân nặng của trẻ bằng kilogram (thay vì gram) và gọi tên biến mới là wei ght: 

d3 = mutate(bw, mother.wt = 1wt*0.453592, weight = bwt/1000) 

head (33) 


id 1ow age lụt race smoke ptl ht ui ftv bwt mother.wt weight 


185 0 19 182 3 0 0 0 1 02523 82,55374 2,523 
2 86 0 33 155 3 0 000 32551 70.30676 2.551 
3 87 0 20 105 1 1 000 12557 47.62716 2.557 
488 0 21 108 1 1 0 0 1 22594 48.98794 2.594 
5 89 0 18 107 1 1 0 0 1 0 2600 48.53434 2.600 
691 0 21 124 3 0 0 0 0 02622 56.24541 2.622 


Hàm arrange ()_ có thể dùng để sắp xếp (sort) dữ liệu theo thứ tự của 
một hay nhiều biến số. Chẳng hạn như hàm dưới đây sẽ sắp xếp dữ liệu theo thứ 
tự của biến mother .wt và weight : 

d4 = arrange(d3, mother.wt, weight) 


head (44) 

id low age lụt race smoke ptl ht ui ftv bwt mother.wt weight 
1 44 1 20 80 3 1 0 0 1 0 2211 36.28736 2.211 
2 15 1 25 85 3 0 0 0 1 0 1474 38.55532 1.474 
3 137 0 22 85 3 1 0 00 0 3090 38.55532 3.090 
4.32 1 25 89 3 0 2 00 1 2055 40.36969 2.055 
5 118 0 24 90 1 1 100 1 2948 40.82328 2.948 
6 132 0 18 90 + 1 0 0 1 0 3062 40.82328 3.062 


Hàm sanple n() và sample, £rac () có thể dùng để chọn mẫu ngẫu 


nhiên theo dòng h theo xác suất định trước. Lệnh dưới đây chọn 10 dòng 





ngẫu nhiên từ dữ liệu bw : 
đ5 = sample n(bw, 10) 
d5 
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id low age lwt race smoke ptl ht ui ftv bwt 


57 144 0 21 110 3 1 0 0 1 03203 
159. 43 1 27 130 2 0 0 0 1 0 2187 
124 220 0 22 129 3 0 0 00 0 4111 
93 187 0 19 235 1 1 § 1 9 0 3629 
48 135 0 19 132 K) 0 0 00 0 3090 
73 164 0 23 115 3 1 0 00 1 3331 
17 102 0 15 98 2 0 0 0 0 0 2778 
154 35 1 26 117 1 1 10 0 0 2084 
30 116 0 17 113 2 0 0 00 1 2920 
79. 172 0 20 121 2 ` 0 0 0 0 3444 


Lệnh dưới đây chọn ngẫu nhiên 5% từ dữ liệu bw: 
d6 = sample frac(bw, 0.05) 


d6 

id low age lwt race smoke ptl ht ui ftv bwt 
127 223 0 35 170 1 0 100 1 4174 
125 221 0 25 130 kh 0 0 0 0 2 4153 
141 22 1 32 105 1 1 0 00 0 1818 
146 27 1 20 150 1 4 0 0 0 2 1928 
31 117 0 17 113 2 0 0 00 1 2920 
48 135 0 19 132 3 0 0 00 0 3090 
128 224 0 19 120 1 1 0 0 0 0 4238 
116 212 0 28 134 3 0 0 00 1 3941 
3. 191 0 29 154 1 0 0 0 0 1 3651 


Hàm summari se () và group_by ()_ rất có ích trong việc tính toán theo 
nhóm. Chẳng hạn như chúng ta muốn tính giá trị trung bình của biến age, 
1wE và bwt theo smoke, và tạo ra những biến mới có giá trị trung bình với tên 
làmean.age mean.lwt, và mean.bw: 

group = group by(bw, smoke) 

đ7 = summnarise (group, 

count = n(), 

mean.age = mean(age, na.rm=T), 


mean.lwt = mean(lwt, na.rm=T), 
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mean.bw = mean(bwt, na.rm=T)) 
> d7 
# `A tibble: 2 x 5 


smoke count mean.age mean.lwt mean.bw 


<int> <int> <dbl> <dbl> <dbl> 
1 0 115 23.42609 130.8957 3055.696 
r2 1 74 22.94595 128.1351 2771.919 


Tất cả các hàm trong dplyr có thể thực hiện trong R (mà không cẩn 
dp1yz), nhưng các hàm vừa mô tả trên thì để hiểu hơn và dễ sử dụng hơn. Dĩ 
nhiên, chúng ta cũng có thể kết hợp các hàm trong dplyr và các hàm cơ bản 
trong R để xử lí những dữ liệu lớn và phức tạp. 


1.13. Biến phụ thuộc và 1 biến tiên lượng 

Phần lớn các mô hình thống kê phân biệt hai loại biến số: biến phụ thuộc 
(dependent variables) và biến độc lập (independent variable), có khi còn gọi là 
biến điên lượng (predictor variable). Biến phụ thuộc có khi còn gọi là oufcome. 
Chẳng hạn như nếu chúng ta muốn so sánh độ tuổi giữa nam và nữ, thì độ tuổi 
là biển phụ thuộc, và giới tính là biến tiên lượng. 

Cú pháp chuẩn của R trong việc mô tả mối liên quan giữa biến phụ thuộc 
(y) và biến tiên lượng (x) là: 





trong đó, kí hiệu ~ (tilde) có thể đọc “hàm số của”. Do đó, y ~ x có thể đọc là 
*y là hàm số của x) hay "y phụ thuộc vào x”. Điểu đó cũng có nghĩa thực tế trong 
việc tổ chức dữ liệu cho phân tích. Bởi vì cú pháp trên phân biệt y và x là hai biến, 
nên dữ liệu cũng phải sắp xếp thành hai biến riêng biệt. 

Chẳng hạn như chúng ta có đữ liệu y cho 2 nhóm A và B như sau: 


Nhóm A Nhóm B. 
13.2 213 
117 19.3 
15.8 178 

154 


thì cách sắp xếp dữ liệu trong R phải theo hai biến. Biến thứ nhất là nhóm 
(tạm gọi là group) và biến thứ hai là y: 
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group v 

A 132 
117 
158 
213 
19.3 
178 
154 


=mœĐœUœm>œ® 


và khi nhập dữ liệu trong R: 
group = cÚ*A”, *A“, *A”, *B”, *Bh, *B”, 


`“) 


y “ c(13.2, 11.7, 15.8, 21.3, 19.3, 17.8, 15.4) 


dat = data.frame(group, y)} 


hoặc có thể làm gọn hơn bằng cách dùng hàm rep: 
group = c(rep(*A”, 3), rep(*B”, 4)) 


Yy = c(13.2, 11.7, 15.8, 21.3, 19.3, 17.8, 15.4) 


dat = data.frame(group, y) 


Do đó, khi mô tả đữ liệu theo nhóm, ví dụ như biểu đồ hộp, chúng ta chỉ 
cẩn viết ngắn gọn: 


boxplot (y ~ group) 


hay kiểm định t: 
t.test(y ~ group) 


1.14. Biến phụ thuộc và nhiều biến tiên lượng. 


Cách tổ chức dữ liệu trên cũng được áp dụng cho nhiều biến tiên lượng. 
Chẳng hạn như một nghiên cứu theo dõi hai nhóm bệnh nhân, và mỗi bệnh 
nhân được đo lường ở 3 thời điểm như sau: 


ID Group Timel Time2  Time3 


1 A 110 112 11 
3 ^ 0.80 085 0.83 
3 ^ 0.76 0.75 077 
4 B 0.90 092 0.95 
5 B 0.95 097 1.00 
6 B 1.02 107 1.10 
7 B 0.89 087 092 
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Cách tổ chức dữ liệu như trên rất khó dùng cho phân tích chuyên sâu nhằm 
đánh giá thay đổi của bệnh nhân theo thời gian (ví dụ mô hình phân tích hỗn 
hợp). Bởi vì chúng ta muốn biết mức độ dao động giữa các thời điểm trong mỗi 
bệnh nhân, nên thời gian cần phải có một biến riêng. Cách tổ chức lí tưởng cho 
Rh: 

ID Group Time y 
A 1.10 
1.12 
111 
0.80 
085 
083 
0.76 
0.75 
077 
0490 
0.92 
095 
095 
097 
1.00 
102 
107 
1.10 
0.89 
087 
0.92 


»»àx ao u0 +2 0 0 0 MB N N— Ha 
=œœœœœœœeœeœeœœœb>>>>>>>> 
0D NÓ NÓ UU NÓ 0 NÓ 0 NÓ 0 NT Na 


Nên nhớ rằng sắp xếp hay “tổ chức” dữ liệu là một bước rất quan trọng 
trong phân tích thống kê. Có thể nói rằng trong nhiều trường hợp, thời gian để 
sắp xếp dữ liệu chiếm đến 90%, còn thời gian phân tích chỉ chiếm khoảng 10% 
quï thời gian. Một khi bước sắp xếp dữ liệu hoàn chỉnh thì việc phân tích sẽ rất 
thuận tiện. 

Ghi thêm: Bạn đọc có thể tải loạt bài giảng về R và phân tích đữ liệu từ 
youtube.com qua địa chỉ sau đây: www.youtube.com/user/drnguyenvtuan/ 
videos. Chương trình này bao gồm khoảng 50 bài giảng do tôi thực hiện trong 
thời gian 2014 đến 2016. 
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chúng ta sẽ làm việc với dữ liệu nghiên cứu. Đây là những dữ liệu đã được 
tuyển chọn từ nhiều nghiên cứu thực tế để minh hoạ cho một số phương 
pháp phân tích trong sách. 


s hành phân tích dữ liệu cẩn phải có dữ liệu thật. Trong sách này, 


2.1. Nghiên cứu loãng xương. 


Đây là đữ liệu trích từ một nghiên cứu về loãng xương. Nghiên cứu được 
thực hiện ở Việt Nam trên 1000 cá nhân, nhưng đữ liệu chỉ trích 550 cá nhân. Rất 
nhiều câu hỏi nghiên cứu có thể đặt ra từ nghiên cứu này, nhưng ở đây, chúng ta 
chỉ quan tâm đến việc dùng dữ liệu để minh hoạ cho một số biểu đồ phổ biến. 


Tên dữ liệu: *bone data.csv” 
Các biến số: 
® 1đ: mã số của cá nhân 
® sezr: giới tính (có hai giá trị; F = nữ và M = nam) 
® age: độ tuổi 
® weight: cân nặng (kg) 
® bmi: chỉ số trọng lượng cơ thể (kg/m?) 
® pcfart: tỉ trọng mỡ (%) 
-29_—— 
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® faL.mass: lượng mỡ toàn thân đo bằng DXA (kg) 
® 1ean.mass: lượng cơ toàn thân đo bằng DXA (kg) 
®_1sbmd: mật độ xương đo ở xương cột sống (g/cm?) 
® £nbmd: mật độ xương đo ở cổ xương đùi (g/cm°) 

® wbbmd: mật độ xương đo ở xương toàn thân (g/cm?) 
® pinp: chỉ số tạo xương 

® xlaps: chỉ số huỷ xương 

® estradio1: nồng độ estradiol trong máu 

® LesLo: nồng độ testosterone trong máu 

®  1epLin: một hormone về mỡ 

® viLdđ: nồng độ vitamin D3 trong máu 

® th: nồng độ parathyroid hormone trong máu 


® osteo: chẩn đoán loãng xương (có 3 giá trị là osteoporosis, osteopenia 
và normal) 
Đọc dữ liệu 
Dưới đây là cách đọc dữ liệu vào máy tỉnh và 6 dòng đầu tiên của dữ liệu 
qua hàm head () . Chú ý, khi đọc đữ liệu, bạn đọc phải cung cấp đường dẫn 
chính xác trong máy. Nếu không rõ, có thể dùng fi1e .choose () để tìm đường 
dẫn chính xác. 


bone = read.csv(*bone data.csv”, header=T) 
head (bone) 


> head (bone) 


1d sex age weight bmi pcfat lean.mass fat.mass 1sbmd fnbmd wbbmd 
1 1 F 53 49 21.9237 37.3 28.5996 17.8018 0.741 0.537 0.878 
2 2M 65 52 19.1001 16.8 40.2285 8.3814 0.578 0.358 0.837 
3.3 F 64 5123.2727 34.0 36.0574 19.2210 0.719 0.522 0.84 
4.4. Ð 56 53 21.7784 33.8 33.0935 17.4722 0.729 0.622 0.798 
55M 54 51 19.9219 14.8 40.6208 7.3363 0.832 0.706 0.98. 
6 6£ 52 47 20.0777 32.2 30.0684 14.9038 0.730 0.520 0.910 
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pỉnp xlaps estradiol testo leptin vitd pth osteo 


1 39.17 154.30 9.78 8.10 9.68 39.01 11.89 Osteopenia 
225.64 302.90 19.02 612.90 0.84 23.40 14.14 Osteoporosis 
343,89 273.70 5.00 10.95 12,69 41,00 24.22 Osteoporosis 
4 137.50 681.20 5,00 9.04 16.38 24.52 18.07 Osteopenia 
5 29.14 16.29 26.44 477.90 0.18 40.84 9.56 Osteopenia 
6 46,30 239.20 5.00 5.66 12.60 32.90 15.66 Osteoporosis 


2.2. Nghiên cứu cân nặng trẻ mới sinh 
Đây là kết quả nghiên cứu về trọng lượng trẻ sơ sinh (n = 1174 em). Số liệu 
bao gồm các biến sau đây: 
Tên đữ liệu: *bwt .csv” 
Biến số: 
® bwt: trọng lượng lúc sinh (tính bằng ounces, 1 ounce = 28.3495 gram) 
® gesLaLion: thời gian mang thai (tính bằng ngày) 


® parity: số lẩn sinh (có hai giá trị, I = sinh lần đầu, 0 = không phải lần 
đầu). 


® age: tuổi của bà mẹ. 

® height: chiểu cao của mẹ (tính bằng inches, 1 inch = 2.54 cm). 

® weight: trọng lượng của bà mẹ khi mang thai (tính bằng pounds, 
1 pound = 0.453592 kg). 


®_smoke: hút thuốc lúc mang thai (có hai giá trị, 1 = có hút thuốc lá trong 
khi mang thai; 0 = không hút thuốc lá lúc mang thai). 





Dữ liệu có thể tải/đọc trực tiếp từ mạng: 
bwt = read.csv (*http://people.reed.edu/~jones/141/Bwt. đat”) 

Nghiên cứu yếu tố liên quan đến cân nặng trẻ sơ sinh. Một bộ dữ liệu khác 
của 189 bà mẹ và trẻ sơ sinh trích từ nghiên cứu của Trung tâm Y tế Baystate 
(1986). Mục tiêu là tìm yếu tố có liên quan đến thấp cân (tức dưới 2500 g) của 
trẻ mới sinh. Dữ liệu bao gồm các biến sau đây: 

Tên dữ liệu: *birthwt.csv” 

Biến số: 

1. 1đ: mã số của bà mẹ 
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. 1ow: thấp cân (0= không thấp cân, 1= có thấp cân) 
. age: tuổi của mẹ lúc sinh. 


2 
3. 
4. 1wt: cân nặng của mẹ (pounds) lúc có kinh 
5. race: sắc tộc (1= trắng, 2= đen, 3= khác) 

6, 


. smoke: hút thuốc lá trong lúc mang thai (0= không, 1= có hút thuốc 
trong lúc mang thai) 


7. ÐL1: số lần chuyển dạ sanh non trước đây 
8. ht: tiển căn có cao huyết áp (0= không, 1= có tiền căn cao huyết áp) 


9. ui: có cơn gò tử cung (uterine irritability) (0= không, 1= có cơn gò tử 
cung) 


10. £Ev: số lần ghé bác sĩ giai đoạn mới mang thai 
11. bwE: cân nặng lúc sanh (grams) 


Nguồn: Hosmer, D.W. and Lemeshow, S. (1989) Applied Logistic Regression. 


New York: Wiley. 


Đọc dữ liệu 
> bw = read.csv («+/Dropbox/Q&A Book/Datasets/birthwt. 
csv», header=T) 


> head (bw) 

id low age lwt race smoke ptl ht ui ftv bwt 
185 0 19182 2 0 0 0 1 02523 
286 0 3315 3 0 000 32551 
387 0 20105 1 1 000 12557 
488 0 21108 1 1 0 0 1 22594 
5890 18107 1 1 0 0 1 02600 
691 0 21124 3 0 0.00 02622 


Dữ liệu birthwt còn có thể lấy trực tiếp từ chương trình MASS như sau: 
1ibrary (MASS) 
data (birthwE) 
head (birthwt) 
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2.3. Nghiên cứu thuốc lá 


Đây là số liệu về đặc điểm của 25 loại thuốc lá (Mĩ). Mục tiêu nghiên cứu là 
tìm yếu tố có liên quan đến lượng carbon monoxide trong thuốc lá. Dữ liệu này 
sẽ được dùng trong việc tìm mô hình tối ưu (tham khảo chương trình “BMA”). 
Các biến số liên quan bao gốm: 


Tên dữ liệu: *cigarettes .csv” 

Biến số: 

® brand: hiệu thuốc lá 

® tar: nồng độ tar (mg) 

® nicotine: nồng độ nicotine (mg) 

® weight: trọng lượng điếu thuốc (g) 

® carbon: carbon monoxide (mg) 

Nguồn: http://www.amstat.org/publications/jse/datasets/cigarettes.txt 


Đọc đữ liệu 
> smoke = read.csv(*cigarettes.csv”) 
> head (smoke) 
brand tar nicotine weight carbon 


1 Alpine 14.1 0.86 0.9853 13.6 
2 BensonsHedges 16.0 1.06 1.0938 16.6 
3 BullDurham 29.8 2.03 1.1650 23.5 
4 Camellights 8.0 0.67 0.9280 10.2 
5 Carlton 4.1 0.40 0.9462 5.4 
6 Chesterfeld 15.0 1.04 0.8885 15.0 


Có thể đọc/tải trực tiếp từ mạng: 


cỉg = read.table (*http: //ww2.amstat.org/publications/ 
3se/datasets/cigarettes. dat .txt”) 


1ibrary (p1yr) 


cỉg = rename(cig, c(*V1”=”brand”, *V2”=”tar”, *é3“= 
“®nicotine”, *V4”=”weight“, *V5“=“carbon”)) 


head (cig) 
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2.4. Nghiên cứu ung thư gan 

Đây là một công trình nghiên cứu lâm sàng đối chứng ngẫu nhiên về xơ 
gan mật nguyên phát (primary biliary cirrhosis), do Mayo Clinic thực hiện 
từ năm 1974 đến 1984. Công trình nghiên cứu so sánh hiệu quả của thuốc 
D-penicillamine (DPCA) với nhóm chứng (placebo). Có 424 bệnh nhân đáp 
ứng các tiêu chuẩn lựa chọn tham gia vào công trình nghiên cứu. Biến kết cục 
lâm sàng là tử vong. 

Tên dữ liệu: *pbc.csv” 

Biến số: 

® id: mã số bệnh nhân 

® _£uEime: số ngày theo dõi từ lúc tham gia nghiên cứu đến tử vong, thay 

gan, hay còn sống tính đến tháng 7/1986. 

® status: tính trạng (0= sống, 1= ghép gan, và 2= chết) 

®  drug: thuốc sử dụng (1= D-penicillamine, 2= placebo) 

® age: tuổi (ngày) 

® sex: giới tính (0= nam, l= nữ) 

® ascites: báng bụng (0= không, 1= có) 

® hepato: gan to (hepatomegaly) (0= không, 1= có) 

®spiders: dấu tuần hoàn bàng hệ (0= không, 1= có) 


® edema: phù (0= không, 0.5= có phù nhưng không dùng thuốc lợi tiểu, 
1= có phù cho dù đã được điểu trị bằng thuốc lợi tiểu) 


® bi1i: nồng độ bilirubin trong máu (serum bilirubin, mg/dl) 

® cho]: nồng độ cholesterol trong máu (serum cholesterol, mg/dl) 
® albumin: nồng độ albumin trong máu (albumin, gm/dl) 

® copper: lượng đồng trong nước tiểu (urine copper, ug/day) 

® alk_phos: alkaline phosphatase, U/liter 

® sgoL: SGOT, U/ml 

® trig: triglicerides, mg/dl 

® platelet: tiểu cần (platelets tính trên ml/1000) 


® proEime: thời gian prothrombin tính bằng giây 
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id 
1 


`... 


2 
3 
4 
s 
6 


A Ơn & 0B 


® stage: giai đoạn của bệnh 


Nguồn: http://www4.stat.ncsu.edu/~boos/var.select/pbc.dat.txt 


Đọc dữ liệu 


> pbc = read.csv (*pbc.csv”, 


> head (pbe) 
£u,days 

400 

4500 

1012 

1925 

1504 censored due 

2503 





hepatom spiders edema 
1 1 1.0 

1 1 0.0 

0 00.5 

1 1 0.5 

1 1 0.0 

1 00.0 
platelet  protime 
190 12.2 

10.6 

12.0 

10.3 

136 10.9 

NA 11.0 


ah. 


Bộ dữ liệu pbc còn có thể đọc trực tiếp từ chương trình surviva1: 


1ibrary (survival) 
đata (pbe) 
head (pbe) 


status 


death 


censored 


death 
death 


to liver tx 


bi 


14. 


° 0 HP 
„mm 


death 


header=T) 


drug 


penici11amine 


penici11amine 


penici11amine 


penici11amine 


cho1 albumin 


261 
302 
176 
244 
219 
248 


stage 


4 
3 
4 
4 
3 
3 


@ 6 M6 


„60 
.14 
.48 
.54 
„53 
-98 


placebo 


placebo 


age' 
21464 
20617 
25594 
19994 
13918 
24201 


sex ascites 


female 


female 


male 


female 


female 


female 


copper alk.phos 


156 
54 
210 
S4 
143 
50 


1718.0 
7394.8 
516.0 
.8 
0 
0 


6121 


671. 
944, 


sgot 


137, 
113. 
96. 
60. 
113. 
93, 


95 
52 
10 
63 
15 
00 


trịg 
172 
88 
55 
92 
72 
63 


Các bạn có thể tải những đữ liệu này về máy tính để thực hành. Thực hành 
có thể thực hiện bằng cách gõ các lệnh trong sách trong R console. 


'lpe/eulun heploarg 


..... 





v: “4-6 


Hai trường phái 
phân tích thống kê 





phân tích chỉ nhằm để tìm trị số P và qua đó có thể kết luận một kết quả 

hoặc là "cớ” hay “không có” ý nghĩa thống kê. Nhưng trong thực tế, cách 
nhìn đó không đúng, vì phân tích thống kê là một mô hình suy nghĩ. Qua phân 
tích và mô hình phân tích, nhà khoa học có cơ hội đặt câu hỏi mới và suy nghĩ về 
vấn để mình quan tâm. Trị số P chỉ là một chỉ số rất thô và chịu nhiều tác động 
của mô hình phân tích và mô hình nghiên cứu, chứ không phải là mục tiêu sau 
cùng của phân tích dữ liệu. 

Trong phân tích dữ liệu bằng mô hình thống kê có hai cách tiếp cận, hay 
cũng có thể nói là hai trường phái chính: ước tính và kiểm định giả thuyết. Hai 
trường phái này tồn tại song song nhau. Đối với trường phái ước tính (thuật ngữ 
tiếng Anh là estiation), nhà phân tích chỉ quan tâm đến ước tính tham số của 
mô hình và khoảng tin cậy (KTC) của tham số. Đối với trường phái kiểm định 
giả thuyết, nhà phân tích quan tâm đến ước tính trị số P của tham số dưới điểu 
kiện giả thuyết vô hiệu là đúng. Trong thực tế, cả hai trường phái tồn tại song 
song nhau, và bổ sung cho nhau. 


]Ð ối với người chưa quen với phân tích đữ liệu khoa học các phương pháp. 


3.1. Trường phái ước tính 

Triết lí thống kê hiện đại dựa vào khái niệm (ẩn số (frequency) và lấy mẫu. 
(sampling). Để biết chiểu cao của người Việt, một cách chính xác nhất là đo 
chiểu cao của tất cả đân số Việt Nam, và tính giá trị trung bình. Trong trường 
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hợp này, chúng ta không cẩn mô hình phân tích thống kê, và cũng không cần suy 
luận thống kê bởi vì chúng ta đã có trong tay toàn bộ quần thể. 

Nhưng đo lường cả một dân số là điểu khó khả thi, và cũng không cần thiết. 
Thay vì đo lường chiểu cao tất cả người Việt, chúng ta có thể chọn một nhóm 
người một cách ngẫu nhiên, và đo lường chiểu cao, tính trung bình và độ lệch 
chuẩn, và sau đó là dùng các chỉ số thống kê quan sát được (như trung bình và 
độ lệch chuẩn) để suy luận cho dân số. Lúc đó, chúng ta cần phân tích và suy 
luận thống kê. 

Để hiểu kết quả phân tích tốt hơn, chúng ta cần phải phân biệt hai phạm trù; 
mẫu và quần thể. Mẩu ở đây là sample, là số người chúng ta chọn ngẫu nhiên. 
Quần thể trong thuật ngữ thống kê là population. Tuy gọi là populaHion nhưng 
nó không có nghĩa thông thường là dân số. Như vậy, mẫu được lấy từ quẩn thể. 
Dĩ nhiên, chúng ta có thể chọn rất nhiều mẫu từ một quần thể, và phân bố của 
các chỉ số thống kê (được tính toán từ mẫu) cho phép chúng ta có thể suy luận 
về phân bố của quần thể. 

Phân biệt mẫu và quần thể giúp cho chúng ta hiểu rõ hơn khái niệm thống 
kê, nhưng một phân biệt khác là các chỉ số thống kê mẫu và thông số cũng cần 
thiết. Khi chúng ta lấy mẫu, chúng ta chỉ có thể tính toán những chỉ số thống 
kê, như trung bình, trung vị, phương sai, độ lệch chuẩn, tỉ lệ hay xác suất, v.v. 
Tất cả những chỉ số đó (được tính từ mẫu), thuật ngữ tiếng Anh gọi là sfatistic. 
Thuật ngữ thông số hay parameter là những chỉ số thống kê liên quan đến quần 
thể. Như vậy, chúng ta có hai nhóm chỉ số tốn tại song song nhau, một nhóm 
để cập đến mẫu (statistic), một nhóm liên quan đến quần thể (chúng ta gọi là 
parameter). Theo qui ước chung, kí hiệu của các statistic được viết bằng mẫu tự 
tiếng Latin, và các thông số được viết bằng mẫu tự Hi Lạp: 


Vài kí hiệu phổ biến cho mẫu và quần thể 























Chỉ số Mẫu (statistic) Quần thể 
(parameter) 
Trung bình m ụ 
Phương sai ° ơi 
Độ lệch chuẩn § ƠØ 
Xác suất P TC 
Tỉ số nguy cơ RR kì 
Tỉ số odds ÓOR 9 
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Ở đây, có lẽ tôi cần giải thích thêm hai thuật ngữ: "estimate” và “estimation”: 
Tôi tạm dịch es£imafe là ước số, vì estimate là một con số ước tính từ mẫu. Ví 
dụ như trung bình chiểu cao của 25 thanh niên Việt là 167 cm, thì con số 167 
được gọi là estmafe. Nói cách khác, m = 167. Estimation là qui trình hay cũng 
có thể gọi là thuật toán để có ước số. Một thuật ngữ khác cũng hay sử dụng là 
test statistic, có nghĩa là một chỉ số kiểm định thống kê tính từ mẫu. Ví dụ như 
t=x/Js/n thì t được xem là một fest statistic. Nói cách khác, cũng có thể xem 
test statistic như là một công thức của chỉ số thống kê. 

Dĩ nhiên, chúng ta không biết giá trị của các thông số trong quần thể. Nhưng 
chúng ta biết (vì có thể tính toán) các chỉ số thống kê từ quần thể. Các phương 
pháp phân tích thống kê cung cấp cho chúng ta những phương tiện để dùng các 
chỉ số thống kê mà suy đoán [hay suy luận] giá trị của thông số trong quần thể. 

Một phần của những cái hay và cái đẹp của thống kê là ở đây: dùng giá trị 
của mẫu để suy luận cho quần thể. Chúng ta không biết chiểu cao trung bình 
của dân số Việt Nam, nhưng chúng ta có thể lấy mẫu và qua ước tính, có thể 
suy đoán khá chính xác về chiểu cao của dân số. Chúng ta không biết thuốc 
strontium ranelate có hiệu quả giảm gãy xương hay không, nhưng chúng ta có 
thể làm nghiên cứu trên mẫu và suy luận cho hiệu quả của thuốc. Chúng ta 
không biết gen LRP5 có liên quan đến mật độ xương hay không, nhưng chúng ta 
có thể nghiên cứu trên một số đối tượng và suy luận về mối liên quan. 

Trong trường phái ước tính, nhà phân tích quan tâm đến ước tính chỉ số 
thống kê và sự bất định của nó. Chẳng hạn như để ước tính giá trị trung bình 
chiểu cao, chúng ta có thể làm như sau: 

® Lấy mẫu ngẫu nhiên gồm n người, và đo chiểu cao; 

® Dùng phương pháp bình phương tối thiểu (least square method) hay 

phương pháp tối đa khả dĩ (maximum likelihood) để ước tính giá trị 
trung bình m; 

® Ước tính phương sai độ lệch chuẩn trong mẫu; 

® Dùng các chỉ số trên để tính toán khoảng tin cậy, và dùng khoảng tin cậy 

để suy luận cho thông số ti trong quần thể (dân số). 

Một trong những chỉ số quan trọng của phân tích mẫu là khoảng tin cậy 
(KTC), thuật ngữ tiếng Anh gọi là confidence interval. Khoảng tin cậy có thể tính 
cho xác suất 90, 95 hay 99%. Nhưng thông thường người ta hay lấy KTC 95% làm 
chuẩn để suy luận về thông số. 
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Chẳng hạn như qua nghiên cứu trên 100 người, và chúng ta có trung bình 
chiểu cao là z = 167 cm, và độ lệch chuẩn s = 6 cm. Giả định rằng chiều cao tuân 
theo luật phân bố chuẩn, chúng ta có thể ước tính khoảng tin cậy 95% như sau: 


m + 1.96xs = 167 + 1.96x6 


đao động trong khoảng 155.2 đến 178.8 em. Nói cách khác, chúng ta có thể 
suy luận rằng 95% chiểu cao của 100 người đó đao động trong khoảng 155.2 đến 
178.8 cm. 

Nhưng còn suy luận cho quần thể (thông số)? Xin nhắc lại rằng chúng ta 
không biết giá trị trung bình chiểu cao của dân số Việt; chúng ta chỉ có thể suy. 
luận về chiểu cao quần thể qua các chỉ thống kê số tính toán từ mẫu. Một cách để 
suy luận về thông số là tính KTC của thông số đó. Khoảng tin cậy 95% của trung 
bình có thể ước tính từ độ lệch chuẩn và số cỡ mẫu qua công thức: 


m‡I3 : ) 


Trong đó, s/ MT" được gọi là sai số chuẩn (standard error). Sai số chuẩn, 
trong thực tế, là độ lệch chuẩn của các số trung bình mẫu. Thử tưởng tượng, nếu 
chúng ta lấy k mẫu, và mỗi mẫu chúng ta tính số trung bình, như vậy chúng ta 
có tập hợp & số trung bình mẫu: x,„ x„ x„..., x,. Độ lệch chuẩn của Xuu Xp sa 
x, được gọi là sai số chuẩn. 

Trong ví dụ trên, chúng ta có KTC95% của số trung bình là 165.8 đến 168.2 
em. Con số KTC95% này có nghĩa là nếu chúng ta lặp lại nghiên cứu rất nhiều 
lần, và mỗi lần lấy mẫu 100 người, thì 95% các nghiên cứu đó sẽ cho ra số trung 
bình mẫu trong khoảng 165.8 đến 168.2 cm. 


~Ie721s4 


vI00 





Một cách diễn giải khác, tuy không chính xác lắm nhưng lại được sử dụng 
phổ biến, là có 95% xác suất mà thông số ụ của quần thể dao động trong khoảng 
165.8 đến 168.2 cm. Chúng ta không biết chính xác ụt là gì, nhưng rất có thể là 
167 cm (trung bình mẫu), và cũng có thể đao động trong khoảng 165.8 đến 168.2 
em với xác suất 95%. Thực tế cách điễn giải này chỉ đúng với khoảng tin cậy (95% 
credible interval) ước tính trong trường phái Bayes (xem thêm phần 3 dưới đây). 

Các phương pháp phân tích dữ liệu theo trường phái ước tính, như mô tả 
trên, tập trung vào việc ước tính các chỉ số thống kê mẫu, và khoảng tin cậy, và 
dùng các chỉ số này để suy đoán cho giá trị của quần thể. 
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3.2. Trường phái kiểm định giả thuyết 

Một trường phái khác trong phân tích thống kê là kiểm định giả thuyết (test 
of hypothesis). Đây là trường phái được Ronald A. Fisher, một cha đẻ của khoa 
học thống kê hiện đại, để xướng và quảng bá rất thành công. Phương pháp kiểm 
định giả thuyết chịu ảnh hưởng của triết lí phản nghiệm (fasifñicationism) của 
Karl Popper. Xin nói thêm rằng Popper là một nhà triết học khoa học rất nổi 
tiếng và có ảnh hưởng lớn đến khoa học. Theo Popper, chúng ta không thể nào 
chứng minh một giả thuyết là đúng hay sai; chúng ta chỉ có thể bác bỏ (falsify) 
giả thuyết với đữ liệu thí nghiệm, và khoa học tiến bộ nhờ bác bỏ những giả 
thuyết không phù hợp với dữ liệu thực tế. 

Có lẽ chịu ảnh hưởng bởi ý tưởng của Popper, nên Eisher để ra phương 
pháp “Test of Signifcance” (tôi tạm dịch là: phương pháp kiểm định ý nghĩa 
thống kê). Theo Fisher, thống kê là một phương pháp suy luận theo phép qui nạp 
(inductive inference), tức là phương pháp suy luận dựa vào quan sát từ các mẫu 
(sample) và khái quát cho một quần thể (population). Phương pháp kiểm định ý 
nghĩa thống kê được tiến hành theo 3 bước như sau: 


Bước 1, phát biểu một giả thuyết vô hiệu (null hypothesis). Giả thuyết vô 
hiệu là giả thuyết ngược lại với giả thuyết mà nhà nghiên cứu muốn kiểm định. 
Chẳng hạn như nếu giả thuyết điểu trị bằng thuốc Ramipril làm giảm nguy cơ tử 
vong, thì giả thuyết vô hiệu sẽ phát biểu là "tỉ lệ tử vong ở bệnh nhân được điều 
trị bằng Ramipril bằng với nhóm giả dược. Gọi giả thuyết vô hiệu là H0. 





Bước 2, thu thập đữ liệu liên quan đến giả thuyết. Hai chữ “thu thập” ở đây 
nghe qua có lẽ là quá đơn giản, nhưng trong thực tế đây là bước quan trọng nhất. 
'Thu thập dữ liệu phải qua thí nghiệm hoặc nghiên cứu, và nghiên cứu phải được 
thiết kế một cách rất cẩn thận. Trong ví dụ trên, số liệu sẽ là số trường hợp tử 
vong. Sau đó, tính toán một chỉ số thống kê (như t-test, ki bình phương, tỉ số 
odds, v.v.), gọi chung chỉ số này là D. 


Bước 3, ước tính xác suất quan sát dữ liệu D nếu giả thuyết H0 đúng. Nói 
cách khác và viết theo ngôn ngữ xác suất, bước này chúng ta ước tính P(D | H0). 
Đây chính là trị số P (P-value). 

Fisher để nghị dùng trị số P để bác bỏ hay chấp nhận giả thuyết vô hiệu. Nên 
nhớ rằng P là xác suất dữ liệu xảy ra nếu giả thuyết vô hiệu đúng; do đó, nếu P 
thấp thì đó là chứng cứ để bác bỏ giả thuyết vô Thấp như thế nào? Fisher để 
nghị rằng nếu trị số P thấp hơn 0.05 thì giả thuyết vô hiệu không phù hợp với dữ 
liệu quan sát được, và do đó phải bác bỏ. Đối với Fisher, không có chuyện “bác 
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bỏ giả thuyết” hay "chứng minh giả thuyết” mà chỉ có số liệu có phù hợp, có nhất 
quán với giả thuyết hay không mà thôi. Cần nói thêm rằng Fisher để nghị báo 
cáo trị số P một cách chính xác, tức là không có những cách viết như P < 0.05 
hay P > 0.01 mà phải là P = 0.043 hay P= 0.002. 


Trong thực tế, chúng ta có thể xem trị số P như là một chỉ số ngạc nhiên. Để 
ví dụ cụ thể như sau. 





minh hoạ cho ý nghĩa này, chúng ta có thể xem qua 
Ngày 27/4/2013, báo soha.vn đưới tựa để “Choáng với chiểu cao cực khủng của 
nam sinh lớp 12? theo đó, một em học sinh lớp 12 có chiều cao 204 cm. Câu hỏi 
đặt ra là chiểu cao này có đáng ngạc nhiên? 

Ngạc nhiên hay không còn tuỳ thuộc vào phân bố chiểu cao của thanh niên 
Việt Nam. Theo nghiên cứu của chúng tôi, chiểu cao của nam thanh niên Việt 
Nam trung bình tại Sài Gòn là 170 cm và độ lệch chuẩn là 6.3 cm. Có thể thể hiện 
phân bố của quần thể như sau: 


Density 
002 003 004 005 


001 





000 





Ỹ 


140 180 200 


Height 

Chiểu cao của em học sinh là 204 cm, tức nằm ngoài giá trị kì vọng của quần 
thể thanh niên Việt Nam. Thật ra, chúng ta có thể tính xác suất một em học sinh 
với chiều cao 204 cm trong quần thể có trung bình là 170 em và độ lệch chuẩn 
6.3 em: 


P(chiểu cao > 204 | ụ = 170, ơ = 6.3) = 0.0000000339 
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Có thể xem đó là trị số P, một thước đo vể sự ngạc nhiên. Vì trị số P quá thấp, 
chúng ta có thể nói rằng chiểu cao 2.04 m của em học sinh là đáng ngạc nhiên. 


Mô hình kiểm định giả thuyết 

Jerzy Neyman (1894 - 1981) là một nhà toán học xuất sắc gốc Ba Lan và Egon 
Pearson (1895 - 1980) là một nhà thống kê học (con của giáo sư Karl Pearson, 
cha đẻ của lí thuyết Chi-square và hệ số tương quan) cùng lúc với Fisher, phát 
triển một phương pháp rất khác với Fisher, mà hai ông gọi là Test of Hypothesis 
(Kiểm định giả thuyết). Neyman và Pearson bác bỏ khái niệm suy luận theo qui 
nạp; hai ông nghĩ rằng thống kê học là một phương pháp hay cơ chế để hướng 
dẫn chúng ta đi đến một quyết định đúng về lâu về dài. Nói cách khác, Neyman 
và Pearson cho rằng phương pháp của Fisher vô nghĩa! 

Một cách đơn giản, mô hình kiểm định giả thuyết của Neyman và Pearson 
có thể thực hiện qua các bước như sau: 

Bước 1, phát biểu giả thuyết chính (H1) và giả thuyết vô hiệu (H0). Ví dụ để 
kiểm định giả thuyết thuốc có hiệu quả giảm tử vong, chúng ta có thể phát biểu 
2 giả thuyết như sau: 

H0: thuốc không có hiệu quả 

HI: thuốc có hiệu quả 

Nếu nghiên cứu có hai nhóm bệnh nhân (một nhóm được điều trị bằng 
thuốc A và một nhóm không được điểu trị bằng thuốc A), và nếu tỉ lệ tử vong 
của hai nhóm là mơ, và m,„ chúng ta có thể phát biểu 2 giả thuyết rằng: 

H0: m, = m, 

HI: m, # n, 

Hay, nếu chúng ta gọi hiệu số của hai tỉ lệ là ồ = m,~ mr„ thì giả thuyết có 
thể viết: 

H0: ồ =0 

HI:ô#0 

Bước 2, quyết định mức độ « và ổ có thể chấp nhận được và ước tính cỡ mẫu 
cẩn thuyết. œ là xác suất bác bỏ giả thuyết H1 nhưng đó là giả thuyết đúng. B là 
xác suất bác bỏ H0 trong khi H0 đúng. 

Bước 3, thu thập dữ liệu liên quan đến giả thuyết. Như để cập trên, thu thập. 
đữ liệu để cập ở đây chính là thực hiện thí nghiệm hay nghiên cứu. Một khía 
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cạnh rất quan trọng trong bước 3 là xác định số đối tượng nghiên cứu cần thiết 
(sample size) dựa vào a và B, và mức độ ảnh hưởng (tức ồ). 

Bước 4, nếu dữ liệu nằm trong khoảng bác bỏ giả thuyết H0, thì chấp nhận 
giả thuyết H1; nếu không thì chấp nhận giả thuyết H0. Chú ý rằng “chấp nhận” 
một giả thuyết không có nghĩa là chúng ta tin vào giả thuyết đó, mà chỉ có nghĩa 
là chúng ta hành động với điểu kiện đó là giả thuyết đúng. 

Nguyên lí của mô hình Neyman và Pearson là chúng ta dựa vào dữ liệu để 
chọn một giả thuyết sao cho về lâu về dài chúng ta không quá sai. Chính vì thế 
mà ngày nay chúng ta thường chọn œ = 5% và ổ = 10% đến 20%. 


Eisher bác bỏ hoàn toàn mô hình của Neyman và Pearson. Ông cho rằng đó 
là một mô hình ... vô duyên. Fisher nhạo báng rằng các nhà toán học (ám chỉ 
Neyman và Pearson) “chẳng hiểu gì về thực nghiệm và để ra một mô hình quá 
phi thực tế? Trong những năm sau đó (thập niên 1930s) cộng đồng thống kê học 
chứng kiến một cuộc tranh luận dai đẳng và đôi khi nóng bỏng giữa Fisher và 
Neyman-Pearson trên các tập san thống kê học ở Anh. 

Trớ trêu thay, mấy mươi năm sau, hai mô hình của Fisher và Neyman- 
Pearson được "hun đúc” thành một mô hình tổng hợp mà chúng ta ứng dụng 
ngày nay trong nghiên cứu y học. Mô hình này sử dụng kết quả kiểm định thống 
kê của Fisher để đi đến quyết định chấp nhận hay bác bỏ giả thuyết vô hiệu 
H0 hay giả thuyết chính HI theo mô hình của Neyman và Pearson. Tiêu biểu 
cho mô hình này là nghiên cứu lâm sàng đối chứng ngẫu nhiên (randomized 
controlled clinical trial hay RCT). Theo đó, một nghiên cứu lâm sàng được tiến 
hành theo các bước như sau: 


® Bước 1, định nghĩa một giả thuyết vô hiệu và một giả thuyết chính. Thí 
dụ trong một nghiên cứu lâm sàng, gồm hai nhóm bệnh nhân: một nhóm 
được điểu trị bằng thuốc A, và một nhóm được điều trị bằng placebo, 
nhà nghiên cứu có thể phát biểu giả thuyết vô hiệu rằng độ hiệu nghiệm 
thuốc A tương đương với placebo. 

® Bước 2, xác định xác suất œ (còn gọi là sai số loại I) và B (còn gọi là sai số 
loại II), và ước tính cỡ mẫu dựa vào hai xác suất này. 

© Bước 3, tiến hành thí nghiệm để thu thập dữ liệu liên quan đến giả thuyết. 
Dữ liệu ở đây có nghĩa là các chỉ số thống kê mẫu như t-test, ki bình 
phương, tỉ số nguy cơ, v.v. Gọi dữ liệu là D. 





® Bước 4, sử dụng phương pháp kiểm định ý nghĩa thống kê của Fisher ước 
tính xác suất P(D | H0). Gọi trị số này là P. 
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«Bước 5, nếu P< q, bác bỏ giả thuyết H0. Chú ý, bác bỏ H0 không có nghĩa 

là chúng ta chấp nhận giả thuyết H1. 

Có thể minh họa cho các bước trên bằng một ví dụ về nghiên cứu hiệu quả 
của thuốc Ramipril trong việc phòng chống tử vong và đột quy. Với giả thuyết 
rằng thuốc có hiệu nghiệm giảm nguy cơ tử vong và đột quy, các nhà nghiên cứu 
so sánh tỉ lệ tử vong và đột quy giữa hai nhóm bệnh nhân: nhóm 1 được điểu 
trị bằng Ramipril và nhóm 2 là nhóm giả được (placebo). Bắt đầu bằng cách xác 
định a = 0.05 và B = 0.80. các nhà nghiên cứu ước tính số lượng bệnh nhân cần 
thiết. Sau ba năm thu thập số liệu, kết quả có thể tóm lược trong bảng số liệu sau 
đây: 

Hiệu quả của Ramipril giảm nguy cơ nhồi máu cơ tim, đột quy, tử vong 
và tiểu đường thể hiện qua tỉ số nguy cơ và trị số P 


Tỉ số nguy cơ Trị số P 
(relative risk) 
và khoảng tin cậy 95%, 


Nhồi máu cơ tim, 0.83 (0.75 - 0.91) 0.0002 
đột quy, tử vong 
Tỉ lệ mới mắc bệnh tiểu đường. 0.69 (0.56 - 0.85) 0.0006 


Nguồn: HOPE/HOPE-TOO Study Investigators. Long-term effects of 
Ramipril on cardiovascular events and diabetes. Results of the HOPE §tudy 
Extension. Circulation 2005; 112:1339-1346. 


Bởi vì trị số P thấp hơn mức « (0.05) mà các nhà nghiên cứu để ra từ lúc đầu. 
(trước khi thu thập số liệu); cho nên, các nhà nghiên cứu kết luận rằng sự khác 
biệt về tỉ lệ tử vong và đột quy giữa hai nhóm có ý nghĩa thống kê. Tất nhiên, trị 
số P trên không có nghĩa là nghiên cứu đã chứng mình rằng thuốc Ramipril có hiệu 
quả giảm nguy cơ tử vong và đột quy. Nó có nghĩa là nếu thật sự thuốc Ramipril 
không có hiệu quả giảm nguy cơ tử vong và đột quy thì xác suất mà các nhà 
nghiên cứu quan sát các số liệu trên là 0.0002. 


3.3. Trường phái Bayes 
Ở trên, tôi nói có hai trường phái chính trong phân tích dữ liệu, nhưng 
trong thực tế còn có một trường phái khác: Bayes. Thật ra, trường phái Bayes 
không phải là một cái gì mới, vì nó đã tổn tại từ thế kỉ 18 và thịnh hành trong thế 
kỉ 19. Đến thế kỉ 20 thì trường phái Bayes bị làm cho lu mờ mới trường phái ước 
45 
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tính và kiểm định giả thuyết. Nhưng với những khiếm khuyết của trị số P cùng 
vấn để ước tính, trường phái Bayes đang rất thịnh hành. Cộng đồng thống kê dự 
đoán rằng trong thế kỉ 21 trường phái Bayes sẽ trở thành phổ biến hơn như thời 
“huy hoàng” của nó vào thế kỉ 19. 

Trường phái Bayes do linh mục Thomas Bayes để xuất vào năm 1763. Linh 
mục Bayes thường được xem là một nhà toán học tài tử. Suốt cuộc đời ông chỉ 
có một bài báo duy nhất, và bài báo chỉ công bố sau khi ông đã qua đời. Sở đĩ có 
tình trạng đó là vì ông là người rất cẩn thận, sợ công bố sớm mà có sai sót thì sau 
này rất khó nói. Tuy nhiên, bài báo sau khi được công bố đã đặt nền móng cho 
một trường phái thống kê hoàn toàn mới: Bayesian statistics. Chỉ một công trình 
mà ông đã làm thay đổi cả thế giới khoa học, thay đổi cách suy nghĩ về sự bất 
định trong khoa học, và chỉ ra một phương pháp suy luận hoàn toàn logic. Ngày 
nay, phương pháp Bayes được ứng dụng trong hầu hết tất cả lĩnh vực khoa học, 
kể cả trong công nghệ thông tin (ứng dụng Bayes trong việc ngăn chặn những 
thư rác điện tử), tiên lượng kinh tế, phân tích các mối liên hệ xã hội, và lí giải qui 
trình suy nghĩ của con người. Ngày nay, suy luận theo trường phái Bayes được 
nhắc đến trên báo chí đại chúng chứ không chỉ trong báo khoa học. Những tờ 
báo lớn như New York Times, Economist, Guardian, v.v. đều thường xuyên nhắc 
đến phương pháp suy luận Bayes. 


§uy luận Bayes dựa vào định lí Bayes (Bayesian Theorem). Có thể phát biểu 
định lí Bayes theo ngôn ngữ hàng ngày như sau: những gì chúng ta biết là tổng 
hợp những gì chúng ta đã biết cộng với chứng cứ thực tế. Có thể nói rằng Định lí 
Bayes thể hiện cách suy nghĩ rất phổ biến của tất cả chúng ta: đó là chúng ta tiếp 
thu kiến thức một cách tích lũy. 

Để minh hoạ cho ý tưởng trên, chúng ta thử xem qua ví dụ sau đây. Giả dụ 
rằng chúng ta có số liệu về một hormone (tính bằng mmol/L) của 10 người như sau: 

156, 158, 160, 162, 164, 166, 168, 170, 172, 175 

Với số liệu trên, chúng ta có thể tính trị số trung bình là 165.1 mmol/L. 

Nhưng nếu chúng ta biết rằng số liệu đó được thu thập trên 670 người, và 
trong đó có 20 người với giá trị 156 mmol/L, 30 người có giá trị 158 mmol/L, 50 
người với giá trị 160 mmol/L, v.v. (xem bảng dưới đây). Thì số trung bình bây giờ 
chắc chản không phải là 165.1 mmol/L, vì nó còn tuỳ thuộc vào thông tin về số 
đối tượng cho từng giá trị hormone ghi nhận. 
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Giá trị hormone Số người Phần trăm 
(mmol/L) (Xác suất) 
156 20 0.030 
158 30 0.045 
160 50 0.075 
162 100 0.149 
164 150 0.224 
166 130 0.194 
168 100 0.149 
170 50 0.075 
172 30 0.045 
175 10 0.015 
Tổng 670 1.000 


Nếu chúng ta diễn tả số người bằng xác suất (cột 3 trong bảng trên), thì xác 
suất đó có thể xem như là một trọng số. Bây giờ, giá trị trung bình có thể tính 


như là tổng tích số của giá trị và trọng số: 


(156x0.030) + (158x0.045) +..... + (175x0.015) = 164.85 
































Giá trị hormone (x) Số người Xác suất (p) XP, 
156 20 0.030 4.66 
158 30 0.045 7.07 
160 50 0.075 11.94 
162 100 0.149 24.18 
164 150 0.224 36.72 
166 130 0.194 32.21 
168 100 0.149 25.07 
170 50 0.075 12,609 
172 30 0.045 7.70 
175 10 0.015 2.61 
Tổng 670 1.000 164.85 


Như vậy, giá trị trung bình bây giờ chính xác là 164.85 mmol/L, chứ không, 
phải 165.1 mmol/L. 


^7 
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Ví dụ trên đây cho thấy kết quả phân tích có thể thay đổi khi chúng ta có 
thông tin. Trong trường hợp 1, chúng ta không có thông tin nào khác là 10 giá 
trị, và chỉ có thể dựa vào đó để tính giá trị trung bình. Nhưng trong trường hợp 
2, chúng ta có thông tin tiển định về phân bố của hormone trong cộng đồng, nên 
số trung bình chính xác hơn. 

Suy luận Bayes có thể phát biểu một cách đơn giản như sau: 

[Thông tin đang có] x [Thông tin trước đây] = [Thông tin mới] 

Trong ví dụ trên, thông tin đang có là 10 giá trị của hormone; thông tin 
trước đây chính là xác suất phân bố của từng giá trị; và thông tin mới là tích số 
của hai thông tin đang có và thông tin trước đây. 

Như nói trên, suy luận Bayes dựa vào định lí Bayes. Định lí Bayes đĩ nhiên 
cũng có thể mô tả một cách đơn giản qua xác suất. Gọi H là giả thuyết, và D là dữ 
liệu thực tế, Định lí Bayes phát biểu rằng xác suất H với điều kiện D xảy ra - kí 
hiệu P(H | D) - là: 

P(D|H)x P(H) 


P(H | D)= 
Và Mộ P(D) 


Trong đó 
®_P(H) là xác suất giả thuyết trước khi làm thí nghiệm; và 
«- P(D | H) là xác suất dữ liệu xảy ra với điều kiện giả thuyết H là đúng; 


® P(D) là phân bố của dữ liệu, có thể xem là một hằng số. 






Thay vì dùng H như là một giả thuyết, chúng ta có thể thay H bằng 6 như là 
một thông số chúng ta muốn biết. Trường pháp cổ điển hay frequentist (tần số) 
xem ð là cố định, nhưng trường phái Bayes xem 6 có một phân bố riêng, và do 
đó, không cố định. Chúng ta cũng có thể viết theo ngôn ngữ của hàm số: 


#(P|9/(0) 


Ø|D)= 
#|Ð) 7œ) 


hay 


#(0| Ð)œƒ/(P\9)x ƒ() 


Một cách khác để phát biểu Định lí Bayes là: 
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Likelihood x Prior Probability of Hypothesis = Posterior Probability of Hypothesis 
Trong đó, 
© Likelihood = P(D | H), hay ƒ(D | 8), tức phân bố của dữ liệu; 


®_Prior Probability of Hypothesis = P(H) hay ƒ(), có thể xem là xác suất 

tiển định; 

®_ Posterior Probability of Hypothesis = P(H | D), hay Ø6 | D), có thể xem là 

xác suất hậu định. 

Nhìn qua định lí trên, chúng ta thấy suy luận Bayes có 3 thông tin. Thông tin 
thứ nhất là thông tin mà chúng ta muốn biết, thuật ngữ tiếng Anh gọi là posterior 
information - thông tin hậu định. Thông tin thứ hai là thông tin chúng ta đã 
biết, tiếng Anh là prior information - thông tin tiền định. Và, thông tin thứ ba là 
thông tin thực tế, thuật ngữ tiếng Anh là likelihood. Ở đây, "thông tin” có nghĩa 
là xác suất hay phân bố. 

Nguyên lí của phương pháp Bayes xem các thông số là bất định. (Điều này 
phải phân biệt với các phương pháp tần số xem các thông số là cố định, bất biến). 
Chính vì quan điểm này, đối với Bayes, mỗi thông số có một phân bố gắn liền 
với nó. Vì có phân bố, chúng ta có thể ước tính xác suất cho bất cứ giá trị nào 
của thông số. Chính khả năng này làm cho phương pháp Bayes trở nên hấp dẫn 
trong cái nhìn của các nhà khoa học thực nghiệm. 

Chẳng hạn như một nghiên cứu theo đõi 23000 đàn ông người Thuy Điển 
(Jonsson et al 2002) báo cáo rằng nguy cơ tử vong ở những người có BMI>30 
(tức béo phì) cao hơn những người không béo phì 1.42 lần (với khoảng tin cậy 
95% đao động từ 1.15 đến 1.75). Nói theo ngôn ngữ thống kê, RR = 1.42 (KTC95: 
1.15 đến 1.75). Chúng ta muốn đặt câu hỏi xác suất mà RR > 1.30 là bao nhiêu. 
Phương pháp Bayes có thể trả lời câu hỏi này. 

Giả định rằng log(RR) tuân theo luật bố chuẩn, và xác suất tiền định cho mỗi 
giá trị của log(RR) là tương đương nhau (còn gọi là wniform prior distribution), 
chúng ta có thể ước tính số trung bình của log(RR): 

logRR = log(1.42) = 0.351 
và độ lệch chuẩn: 
s= log(1.75 / 1.15) / 3.92 = 0.107 

Xác suất P(RR > 1.30) có nghĩa là P(logRR > 0.2624), và kết quả là 0.79. Như 

vậy, với kết quả trình bày và nếu chúng ta không có bất cứ thông tin tiển định 
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nào về phân bố RR, chúng ta có thể nói rằng xác suất mà RR>1.3 là gần 80% 
(xem hình dưới đây). 


Probability distribution of logRR 
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Như chúng ta thấy, diện tích dưới đường phân bố chuẩn chính là xác suất 
hậu định. Do đó, chúng ta có thể ước tính xác suất của bất cứ giá trị của thông 
số qua phân bố hậu định, và đó là một điểm rất có ích của phương pháp Bayes 
trong thực tế. 


Nói tóm lại, các phương pháp phân tích thống kê có thể xếp vào hai nhóm: 
trường phái ước tính và trường phái kiểm định giả thuyết. Hai trường phái hay 
2 nhóm phương pháp này thường bổ sung cho nhau trong thực tế. Chẳng hạn 
như nếu khoảng tin cậy 95% không bao gồm thông số vô hiệu thì chúng ta có 
thể đoán rắng trị số P < 0.05. Nhưng khoảng tin cậy 95% cung cấp nhiều thông 
tin hơn trị số P. Khoảng tin cậy 95% cho chúng ta biết giá trị khả dĩ của thông 
số (mức độ ảnh hưởng), và qua đó chúng ta có vài ý niệm về tẩm quan trọng của 
vấn để. Trị số P chỉ cho chúng ta biết thông số có hay không có ý nghĩa thống 
kê, chứ không nói lên tầm quan trọng của ảnh hưởng. Một nghiên cứu với cỡ 
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mẫu rất lớn có thể cho ra trị số P < 0.05 (tức có ý nghĩa thống kê) nhưng chẳng 
có ý nghĩa gì trong thực tế. Ngược lại một nghiên cứu không có đủ số đối tượng 
có thể cho ra kết quả không có ý nghĩa thống kê (P > 0.05) nhưng mức độ ảnh 
hưởng có thể có ý nghĩa thực tế. Vả lại, ngưỡng để định nghĩa có hay không có ý 
nghĩa thống kê, như 0.05, là hoàn toàn mang tính tuỳ tiện chứ hoàn toàn không 
dựa trên một cơ sở khoa học nào cả. Do đó, không nên quá lệ thuộc vào trị số P 
để kết luận. Để kết luận về một vấn để, nhà khoa học phải đặt kết quả phân tích 
trong bối cảnh chứ không chỉ đơn thuần dựa vào các chỉ số thống kê. 

Ngoài hai trường phái trên, còn có một trường phái “mới” càng ngày càng 
phổ biến: đó là trường phái Bayes. Trường phái Bayes diễn giải xác suất hoàn 
toàn khác với trường phái tần số (như ước tính và kiểm định giả thuyết). Theo 
cách hiểu phổ biến (và cổ điển), xác suất một biến cố được định nghĩa là tần số 
mà biến cố đó xảy ra về lâu đài. Vào thế kỉ 18, Bá tước Bouffon ném đồng xu 
4040 lần, và ông đếm rằng có 2048 lần, bể mặt của đồng xu xuất hiện, và xác suất 
được hiểu là 50.67%. Cách hiểu xác suất theo trường phái tần số có nhiều vấn 
để và thường bị phê bình. Một cách hiểu xác suất khác theo trường phái Bayes 
là cách hiểu chủ quan (subjective probability). Theo cách hiểu Bayes, xác suất 
phản ảnh mức độ tin tưởng (degree of belief). Xác suất ông Bill Clinton sẽ thắng 
cử là bao nhiêu? Trường phái xác suất theo tần số không thể trả lời câu hỏi này, 
vì không nước nào tổ chức hàng trăm cuộc bầu cử tổng thống cho ông Clinton. 
Trong trường hợp này, người theo trường phái Bayes có thể phát biểu: xác suất 
ông Clinton đắc cử là x phẩn trăm, và xác suất đó phản ảnh mức độ tin tưởng 
của người phát biểu. 

Do đó, trường phái Bayes cung cấp cho chúng ta phương tiện để đặt câu hỏi 
rất thiết thực. Chẳng hạn như chúng ta có thể đặt câu hỏi “xác suất mà thuốc 
giảm nguy cơ tử vong ít nhất là 30% là bao nhiêu”. Dĩ nhiên, câu trả lời phụ thuộc 
vào phân bố tiển định và dữ liệu thực tế. Với suy nghĩ và xem xét cẩn thận chứng 
cứ, câu trả lời có thể cho chúng ta những câu trả lời đáng tin cậy. Chính vì thế, 
tôi thường hay nói rằng các phương pháp phân tích thống kê là phương tiện giúp 
cho chúng ta có suy nghĩ mới hấp dẫn hơn và thiết thực hơn. 

Chú thích: 

Mã R để vẽ đường biểu diễn hình trên: 

m =log(1.42); sd=log(1.75/1.15)/3.92 

RR = seq(-0.5, 1.00, 0.01) 

drr = dnorm(RR, m, sd) 
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Tính toán xác suất 








hợp những phương pháp học từ dữ liệu. Dữ liệu khoa học thường 

được thu thập từ thí nghiệm và các phương tiện sản sinh số liệu tự 
nhiên. Hai chữ “thí nghiệm” ở đây bao gồm những thí nghiệm trong phòng xét 
nghiệm, những điểu tra xã hội, những nghiên cứu lâm sàng, những “thí nghiệm 
tự nhiên” từ chính sách của chính phủ. Khoa học thống kê dùng toán học như 
là một công cụ. Do đó, nhà khoa học thống kê phải am hiểu phương pháp khoa 
học và phương pháp toán học. Trong phần này, chúng tôi sẽ giải thích một số 
khái niệm căn bản về thống kê học. 


M ột cách ngắn gọn, khoa học thống kê (hay Sfafistical Science) là tập 


4.1. Quần thể và mẫu (population và sample) 

Chữ quần thể là dịch từ khái niệm population trong thống kê. Chữ population 
ở đây không có nghĩa là dân số như chúng ta thường hiểu, mà là một tập hợp các 
đơn vị mà mẫu có thể rút ra. “Đơn vị” ở đây có thể là con người, bệnh viện, biến 
cổ lâm sàng, v.v. Do đó, trong thống kê chúng ta có thể nói “quần thể bệnh viện”. 
Những gì liên quan đến quần thể chúng ta gọi là thông số (parameter). 

Mẫu (sample) là một phấn của quần thể. Một mẫu có thể được chọn ngẫu 
nhiên từ một quần thể. Có nhiều kĩ thuật để chọn mẫu ngẫu nhiên và đảm bảo 
tính đại diện quần thể. Những chỉ số liên quan đến mẫu được gọi là síafistic hay 
sarnple statistic. Chẳng hạn như số trung bình là một sample statistic. Chúng ta 
dùng sample statistic để ước tính hay suy luận về thông số của quần thể. 
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4.2. Thống kê mô tả và suy luận 

Sách giáo khoa thống kê thường phân loại hai nhóm phương pháp: mô tả 
(description) và suy luận (inference). Các phương pháp như tính toán trung 
bình, trung vị, độ lệch chuẩn, tỉ lệ, biểu đồ, v.v. được xem là phân tích mô tả. Các 
phương pháp so sánh và kiểm định giả thuyết khoa học (như kiểm định t, hồi 
qui tuyến tính) được xem là phân tích suy luận. Tuy nhiên, các phân chia này 
thường không có ích, và theo tôi là không hẳn đúng. Trong thực tế, các phân tích 
mô tả cũng có thể giúp chúng ta suy luận về quần thể qua tính toán khoảng tin 
cậy. Vì thế, tuy chúng ta cần biết hai phương pháp, nhưng cũng không nên quá 
lệ thuộc vào sự phân biệt này. 

Các phương pháp so sánh hay kiểm định thống kê (statistical test) thường. 
dựa vào nguyên lí phát hiện tín hiệu (signal đetection) và phân biệt với nhiễu 
(noise). Một đo lường có thể xem có hai phần: phần hệ thống (hay tín hiệu) và 
phần ngẫu nhiên (nhiễu). Gọi một đo lường là X, phần hệ thống là 7 và phần 
ngẫu nhiên là E, có thể viết: 

X=T+E 

Cũng có thể xem 7 là phần do mô hình thống kê và E là phần không thể 
giải thích bằng mô hình. Phần lớn các kiểm định thống kê thường xuất hiện 
đưới hình thức tỉ số &= + Do đó, nếu R = 0, thì tất cả đao động của đo lường 
X là hoàn toàn đo nhiễu; nếu R = 1, thì phần tín hiệu bằng phần nhiễu và chúng 
ta không thể kết luận gì về X; nhưng nếu R > 1 (chẳng hạn như R = 10), chúng 
ta càng tự tin rằng độ dao động của X có thể giải thích bằng mô hình (hay tín 
hiệu). 

Vấn để đặt ra là giá trị của R cao bao nhiêu để chúng ta có thể kết luận rằng 
giá trị đo lường X không phải do các yếu tố ngẫu nhiên? Lí thuyết xác suất - 
thống kê cung cấp cho chúng ta nhiều trị số dựa vào các luật phân phối thông 
thường như phân bố chuẩn (normal distribution), phân phối í, F, v.v. để so sánh. 
Nếu R cao hơn các giá trị lí thuyết, chúng ta có bằng chứng để kết luận rằng khác 
biệt về đo lường không phải do yếu tố ngẫu nhiên gây ra. 


4.3. Phân bố thống kê 


Phần đông chúng ta khi tiếp cận với các phân bố thống kê lần đầu, chúng ta 
không biết để làm gì, không hình dung ra các luật phân bố có lợi ích gì. Nhưng 
trong nghiên cứu khoa học, và thậm chí đời thường, các luật phân bố thống kê 
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rất quan trọng, vì qua đó mà chúng ta có thể (¡) mô tả một biến số; và qua đó (ii) 
có thể thẩm định một hiện tượng hay một sự kiện là bất bình thường hay bình 
thường. 

Gọi một biến số là X, và X có thể là chiểu cao, cân nặng, giới tính, tình trạng 
bệnh, v.v. Dĩ nhiên, X có thể có những giá trị x„ x„ x„.... x,„ tượng trưng cho giá 
trị của cá thể 1, 2, 3, ..., n. Các luật phân bố thường được viết dưới dạng mật độ: 

P(X =x) = Xác suất X có giá trị x 

Công thức trên cũng có thể viết là ƒ(x). Nếu X là biến liên tục, hàm số trên 
được gọi là probability density function; nếu X là biến phân loại hay "biến rời rạc”, 
{x) còn có tên là probability mass function. 

Chúng ta thử lấy một ví dụ cụ thể để biết được giá trị và ý nghĩa của phân 
bố thống kê. Ngày 27/4/2013, báo chí đưa tin về một em học sinh lớp 12 có chiều 
cao 204 cm, và đa số quần chúng đều xem chiểu cao này là “khủng” Nhưng một 
cách khoa học, để biết chiếu cao 204 cm của một thanh niên 18 tuổi là hiếm 
hay không, chúng ta cẩn phải biết phân bố của chiểu cao trong cộng đồng. Các 
nghiên cứu trên thế giới đều cho thấy chiểu cao của các cá nhân trong cộng 
đồng tuân theo luật phân bố chuẩn (sẽ mô tả dưới đây). Phân bố chuẩn được 
định hình bởi hai tham số: trung bình và độ lệch chuẩn. Ở Việt Nam, chiều cao 
trung bình của thanh niên 18 tuổi là 170 cm, với độ lệch chuẩn 6.3 em. Với các 
số liệu thực tế đó, chúng ta có thể ước tính rằng 99% thanh niên trong cộng đồng 
có chiểu cao từ 154 cm đến 186 cm. Như vậy, chiểu cao của em học sinh đúng 
là hiếm. Thật ra, chúng ta có thể ước tính xác suất tìm được một thanh niên với 
chiểu cao 204 cm (trong quần thể có chiểu cao trung bình 170 cm và độ lệch 
chuẩn 6.3 cm) là 0.000000034 (3 trên 100 triệu). 

Trong khoa học, để kiểm định một giả thuyết, chúng ta phải xác định một 
chỉ số thống kê thích hợp, phải biết được luật phân bố của chỉ số đó, và khi đã 
biết được luật phân bố chúng ta có thể xác định sự kiện chúng ta quan sát là bình 
thường hay không. Do đó, luật phân bố thống kẻ là rất cần thiết. Trong phần 
này chúng tôi sẽ giới thiệu 3 luật phân bố phổ biến trong thống kê học: phân bố 
chuẩn, phân bố nhị thức, và phân bố Poisson. 


4.3.1 Phân bố chuẩn (normal distribution) 


Phần lớn lí thuyết thống kê dựa vào luật phân bố chuẩn. Các phương pháp 
tính toán như khoảng tin cậy 95%, kiểm định t, Ki bình phương, mô hình hồi qui 
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tuyến tính, v.v. đều dựa vào giả định là phân bố của đữ liệu tuân theo hay gần với 
luật phân bố chuẩn. Trong thực tế, đúng là rất nhiều đo lường lâm sàng và chỉ số 
sinh học đều tuân theo luật phân bố chuẩn. 

Luật phân bố chuẩn được xác định bởi 2 thông số: trung bình (u) và độ lệch 
chuẩn (ø). Nếu biến X tuân theo luật phân bố chuẩn với trung bình ụ và độ lệch 
chuẩn ơ, thì mật độ phân bố của X có thể viết như sau: 


I (x~#Ỷ 
xa-stze-t22) 


Công thức này, f(x), có thể hiểu là mật độ phân bố xác suất của biến X tại giá 
trị x. Hơi khó hiểu, nhưng chúng ta sẽ làm quen với khái niệm này trong ví dụ 
sau. Chú ý rằng công thức trên đôi khi cũng xuất hiện trong các sách giáo khoa 
với một hình thức khác: thay vì viết P(X = x|,Ø”), có tác giả viết khó hiểu 
hơn là ƒ(x). Tất nhiên, trong công thức trên, rr = 3.1416. 





Ví dụ: Nếu chúng ta biết rằng chiều cao của nữ giới Việt Nam có giá trị 
trung bình là 163.3 cm và độ lệch chuẩn 6.6 cm, chúng ta có thể vẽ biểu đổ phân 
bố chiều cao cho quần thể theo công thức trên như sau: 


Probability distribution of height in Vietnamese men 
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Hình 1: Mật độ xác suất chiều cao với trung bình 163.3 cm và độ lệch chuẩn 6.6 cm. 
Tất nhiên, tổng diện tích dưới đường biểu diễn phải bằng 1 (hay 100%). 
Điều này có nghĩa là chúng ta có thể ước tính được xác suất cho bất cứ khoảng 
chiểu cao nào trong quần thể. Ví dụ nếu chúng ta muốn biết có bao nhiêu đàn 
ông Việt Nam có chiều thấp hơn 150 cm, chúng ta chỉ cần tính diện tích mà trục 
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hoành từ 150 cm hay thấp hơn dưới đường biểu điễn. Phát biểu theo ngôn ngữ 
toán học câu hỏi này là: P(X < 150) = ? Hay nói chính xác hơn nữa: 
P(X <150|/¡=163.3.g=6.6)=? 
Tuy nhiên, có một cách tính nhanh hơn và “tỉnh vi” hơn là sử dụng tích 
phân. Bạn đọc nào còn nhớ tích phân thì câu trả lời cho câu hỏi này quá đơn 
giản: chỉ cần tính tích phân chiểu cao từ 0 (thấp nhất) đến 149 cm: 


P(x <150)= [ ” /(x}k 








I (x~163.3)” 
3) sp|-E 8S 
trong đó, 6.6/2Z 2(6.6) ` |. Kết quả tất nhiên là 0.018. 
Bạn đọc không cần phải làm các tính toán tích phân phức tạp, vì phần mềm R 
có một lệnh đơn giản để tính tích phân trên: pnorm(149, mean=163.3, sd=6.6). 
Biểu đồ dưới đây minh họa cho xác suất này bằng cách tô đậm diện tích dưới 
đường biểu diễn để bạn đọc có thể hiểu rõ hơn: 


Probability distribution of height in Vietnamese men 
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Diện tích dưới đường biểu diễn (màu xanh nhạt) cho chiều cao <150 cm là xác suất 
P(X <150|=163.3,ø= 6.6) = 0.018 
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Phân bố chuẩn hóa - standardized normal distribution 


Trong phần trên, chúng ta quan tâm đến việc phân tích chiểu cao bằng cách. 
ứng dụng luật phân phối chuẩn. Tuy nhiên, như để cập trong phần đầu, luật 
phân phối chuẩn có thể ứng dụng cho rất nhiều hiện tượng tự nhiên. Nhưng các 
biến khác nhau về đơn vị đo lường, như chiều cao đo bằng cm, nhưng huyết áp 
đo bằng mmHg, nên chúng ta khó mà so sánh hai biến số này bởi vì chúng có 
đơn vị đo lường khác nhau, và có thể độ lệch chuẩn cũng khác nhau. Chẳng hạn 
như nếu một đối tượng có chiểu cao là 175 cm và huyết áp là 120 mmHg, làm sao 
chúng ta biết các thông số cá nhân này cao hay thấp. Do đó, chúng ta cần phải có 
một cách chuẩn hóa luật phân phối sao cho chúng ta có thể so sánh các biến số 
này mà không cần biết đến đơn vị đo lường. 

Như thấy trong công thức phân bố chuẩn, hai thông số trung bình và độ 
lệch chuẩn hoàn toàn xác định luật phân phối chuẩn, cho nên, một cách chuẩn 
hóa là hoán chuyển chiếu cao (hay một biến số nào khác) sao cho chúng độc 
lập với đơn vị đo lường. Cách hoán chuyển này có tên là z-fransformation hay 
hoán chuyển z. Kết quả của hoán chuyển là một chỉ số z (thuật ngữ tiếng Anh là 
Z-score). Trong ví dụ vể chiều cao, z là độ khác biệt giữa chiều cao một cá nhân 
(kí hiệu là x) và chiểu cao trung bình của quần thể chia cho độ lệch chuẩn. Nói 
cách khác: 





Bởi vì x, # và ø trong công thức trên đây đều có cùng đơn vị (cm), và cm chia 
cho cm nên biến mới hoàn toản độc lập với đơn vị đo lường. Thật ra, đơn vị của z 
bây giờ không còn là cm nữa, mà là độ lệch chuẩn. Xem kĩ công thức trên chúng 
ta có thể rút ra vài nhận xét như sau: 
® _ Nếu chiểu cao của một cá nhân thấp hơn chiều cao trung bình của dân số 
(tức là x < #) chỉ số z sẽ âm. Chẳng hạn như nếu ông A có chiểu cao 150 
cm, thì chỉ số z của ông là z= 29=163-3 ~ _2 01, tức là thấp hơn chiều 
cao của dân số khoảng 2 độ lệch chuẩn; 
® Nếu x=ụ, chỉ số z sẽ là 0; 


© Và nếu x > ụụ, chỉ số z sẽ là số dương. Chẳng hạn như nếu chiểu cao của 
một đối tượng là 175 cm, thì z = 1.77. Nói cách khác, chiểu cao của đối 
tượng này cao hơn trung bình khoảng 1.8 độ lệch chuẩn. 
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Như vậy, thay vì mô tả sự phân phối của chiểu cao bằng đơn vị cm với hàm 
số phân bố chuẩn, chúng ta mô tả bằng đơn vị độ lệch chuẩn hay chỉ số z. Chỉ 
số z bây giờ có số trung bình là ụ = 0 và độ lệch chuẩn là ø = 1. Hàm số phân bố 
chuẩn hoá bây giờ đơn giản hơn như sau: 





'Và hàm số tích lũy sẽ trở thành: 


P(a<z<b)=[”./(zMw + 


Biểu đổ dưới đây minh họa cho phân phối chiều cao tính bằng cm và bằng 


chỉ số z: 


Probability 


Probability distribution of height in Vietnamese men 
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Mật độ xác suất chiều cao ở đàn ông Việt Nam, mô tả bằng cm. 
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Mật độ xác suất của phân phối chuẩn f(z), với trung bình 0 và độ lệch chuẩn 1. 


Cố nhiên, điện tích dưới đường biểu điển của hàm số /(z) trong biểu đồ 
trên phải là 1. Nói cách khác, P(—4< z <4)= Ï/} =1. Ngoài ra, phân phối 
chuẩn còn hàm chứa một số thông tin có ích và thú vị: 


® Xác suất mà z < 1.96 là 0.025 (tức 2.5%). Nói cách khác, diện tích dưới 
đường biểu diễn tính từ z = -1.96 hay thấp hơn là 0.025. 


® Bởi vì phân phối chuẩn cân đối (symmetric), chúng ta cũng có thể nói 
(hay suy luận) rằng xác suất mà z > 1.96 cũng bằng 0.025. 


® Như vậy, xác suất mà z nằm trong khoảng -1.96 và 1.96 là 1~0.025-0.025 
= 0.95 (hay 95%). Nói cách khác, khoảng tin cậy 95% của z là -1.96 đến 1.96. 


s Tương tự, chúng ta cũng có thể phát biểu (và bạn đọc có thể tự mình 
kiểm chứng) rằng xác suất mà z nằm trong khoảng -1.645 đến 1.645 là 90%. Xác 
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suất mà z nằm trong khoảng -2.576 đến 2.576 là 99%. Xác suất mà z nằm trong 
khoảng -3.09 đến 3.09 là 99.9%. 

Đến đây, chúng ta đã thấy hãng số 1.96, 1.64 hay 3.0 xuất phát từ đâu! Các 
hằng số này chẳng có gì bí mật cả: chúng là chỉ số z của phân phối chuẩn. Bảng 
sau đây sẽ cung cấp một số xác suất cho các chỉ số z thông dụng trong thống kê 
học và ứng dụng trong y khoa: 


Bảng 2. Xác suất các giá trị z 








Khoảng tin cậy 95% 

Bây giờ chúng ta sẽ điểm qua vài ứng dụng luật phân phối chuẩn trong y 
văn. Vì có quá nhiều ứng dụng, nên tôi chỉ tập trung vào những vấn để liên quan 
đến những bài giảng của tôi, và một vấn để mà chúng ta hay thấy là ước tính 
khoảng tin cậy 95% (thuật ngữ tiếng Anh là 95% confidence interval hay có khi 
còn viết là 95% confidence limit, thậm chí 95% credible interval theo trường phái 
Bayes). Có vài điểm khác biệt giữa confidence interval và credible interval như 
Sau: 








Confidence interval Credible interval 
Cách ước tính Từ trường phái tấn suất Từ trường phái Bayes 
(frequentist) 


Ý nghĩa cho khoảng tin cậy Nếu lặp lại nghiên cứu 100 Xác suất chiếu cao thật của 

cho chiều cao từ 150.4 đến __ lần,95 kết quả dao động từ cộng đồng người Việt Nam 

176.2 (cm) 150.4 đến 176.2 (cm). dao động từ 150.4 cm đến 
176.2 cm là 95%, 





Trong nhiều nghiên cứu y học mang tính mô tả, chúng ta thường muốn phát 
triển một các tham chiếu (reƒference range hay có khi gọi không chính xác là normal 
range). Chẳng hạn như để phát triển các giá trị tham chiếu cho một biến số sinh 
hóa như calcium trong máu, chúng ta có thể ngẫu nhiên chọn một số đối tượng 
và đo nồng độ calcium trong máu, và sau đó tính khoảng tin cậy 95%. Khoảng tin 
cậy 95% này chính là các giá trị tham chiếu. Nếu nồng độ calcium trong máu của 
một cá nhân nằm ngoài khoảng tin cậy 95% thì chúng ta có thể (xin nhấn mạnh: 


có thể) phát biểu rằng nồng độ của cá nhân này “bất bình thường”. 
Để ước tính khoảng tin cậy 95% (KTC95), chúng ta chú ý mối liên hệ giữa 


—# do đó: 
ơ 


XVà Z VÌ Z 
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x=MUtzơ 


Như để cập trong phần trên, 95% giá trị của z nằm trong khoảng -1.96 
đến +1.96, cho nên chúng ta cũng có thể nói rằng 95% giá trị của x nằm trong 
khoảng g - 1.96ø và w + 1.96ơ. Hay nói ngắn gọn hơn, 95% các giá trị x nằm trong 
khoảng: 

#+1.96xơ 


Quay lại với ví dụ về chiều cao, chúng ta biết rằng số trung bình là 163.3 em. 
và độ lệch chuẩn là 6.6 cm. Do đó, chúng ta có thể suy luận rằng 95% đàn ông 
Việt Nam có chiểu cao trong khoảng 163.3 + 1.96x6.6 = 150.4 cm đến 176.2 cm. 

Tất nhiên, chúng ta cũng có thể ước tính xác suất 99% chiểu cao đàn ông 
Việt Nam nằm trong khoảng 163.3 + 3x6.6 = 143.5 cm đến 183.1 cm. Do đó, nếu 
một đàn ông có chiều cao thấp hơn 143.5 cm, chúng ta có thể nói là “thấp” với 
xác suất dưới 0.5%! 


Tùy theo vấn để cụ thể, nhưng phần lớn các giá trị tham chiếu trong y 
khoa đểu lấy khoảng tin cậy 95% làm chuẩn. Khi xác suất một chỉ số thống kê 
nằm ngoài khoảng tin cậy 95% được xem là "có ý nghĩa thống kê” (statistically 
signifcant). 


4.3.2 Phân bố nhị thức (binomial distribution) 

Luật phân bố chuẩn dùng để mô tả phân bố của một biến liên tục (continuous 
variable). Nhưng trong thực tế, có nhiều hiện tượng chúng ta quan sát mang tính 
phân loại (categorical variable), và nhiều khi chỉ có 2 giá trị. Chẳng hạn như một 
cá nhân có thể sống hay chết, bệnh hay không bệnh, nam hay nữ, v.v. Các biến số 
này có thể được mô tả bằng luật phân bố nòj thức. Luật phân bố nhị thức chỉ có 
2 tham số: xác suất biến cố (p) và số ca quan sát (z). Theo đó, xác suất mà chúng 
ta quan sát k biến cố trong số mẫu là: 





¡ (=p}” 


Nếu chúng ta biết rằng tỉ lệ mắc bệnh loãng xương trong quần thể là 20% 
(p = 0.20), và nếu trong số 50 cá nhân nhập viện, nhưng chỉ có 5 người bị loãng 
xương, câu hỏi đặt ra là kết quả này có đáng ngạc nhiên. Để trả lời câu hỏi này, 
chúng ta có thể ứng dụng luật phân bố nhị thức để tính toán xác suất quan sát 5 
ca loãng xương: 





'lpe/fielun heploerg 


S0! 
P(5)= 
6) Š145! 
hoặc có thể tính bằng R: 
dđbinom(5, 50, 0.2) 





0.25 (0.8) = 0.03 


Nói cách khác, xác suất quan sát 5 bệnh nhân loãng xương trong số 50 cá 
nhân là 3%. Đó là một xác suất có thể xem là đáng ngạc nhiên. Chúng ta cũng có 
thể tính xác suất tích luỹ, như xác suất quan sát 5 hay ít hơn bệnh nhân bị loãng 
xương: 

P(5) + P(4) + P(3) + P(2) + P(1) + P(0) 
hoặc dùng pbi nom: 
pbinom(5, 50, 0.2) 

Kết quả là 4.8%. 

Ngược lại, nếu một biến cố tuân theo luật phân bố nhị thức, và nếu chúng. 
ta theo đõi n đối tượng, thì số biến cố trung bình là: 


u=np 


Ø= jnp(I=p) 


Trong ví dụ trên, với 50 bệnh nhân nhập viện, chúng ta kì vọng sẽ có 50*0.2 
= 10 bệnh nhân loãng xương, và độ lệch chuẩn 2.8. Khoảng tin cậy 95% là 4 đến 
15 người (10 - 1.96*2.8 đến 10 + 1.96*2.8). 


và độ lệch chuẩn: 


4.3.3 Phân bố Poisson 


Phân bố nhị thức dùng để mô tả các biến phân loại hay biến rời rạc có 2 giá 
trị. Trong thực tế nghiên cứu khoa học, chúng ta hay quan sát các hiện tượng 
mang tính số đếm (count), chứ không phải nhị phân. Chẳng hạn như số tế bào, 
số lấn gen đột biến trong một thời gian, số bệnh nhân nhập viện mỗi ngày, v.v. 
Các biến số đếm này có thể mô tả bằng luật phân bố Poisson. Luật phân bố 
Poisson được xác định bởi 1 tham số gọi là À, và tham số này thể hiện tần số 
mà biến cố xảy ra trong một khoảng thời gian. Hàm mật độ xác suất phân bố 
Poisson là: mi 
_ 





P) 
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Giả dụ rằng qua quan sát nhiều năm, chúng ta thấy mỗi ngày có 12 bệnh 
nhân nhập ICU. Chúng ta có thể mô tả biến này qua công thức trên. Và, với công 
thức trên, chúng ta có thể tìm xác suất (chẳng hạn như) 17 hay nhiều hơn bệnh 
nhân nhập viện trong một ngày: 

J2Ue12 1ạl6¿-2 giạ~2 
+..+ 


P(x<1)=—np lột Thử 











Hoặc dùng R: 

PPois (16, 1ambda=12, 1ower=FALSE) 

Kết quả là 10%. Nói cách khác, trong số 100 ngày thì sẽ có 10 ngày với số 
bệnh nhân nhập viện là 17 hay nhiều hơn. Chúng ta cũng có thể ước tính xác 
suất có 16 hay ít hơn bệnh nhân nhập viện mỗi ngày: 

Ppois (16, 1ambda=12) 

Dĩ nhiên, kết quả phải là 90%. 

Ngoài 3 luật phân bố trên, thống kê học còn dựa vào các phân bố khác như' 
phân bố mũ (exponential distribution), phân bố 1, phân bố Ki bình phương, 
phân bố F Tuy nhiên, các phân bố này chủ yếu là phân bố thứ phát từ phân bố 
chuẩn. Chúng ta sẽ tiếp cận với các phân bố nảy qua các vấn để cụ thể trong các 
chương tiếp theo. 


4.4. Bậc tự do 


Khái niệm bậc tự do (degree of freedom) là một trong những vấn để khó. 
hiểu trong thống kê học. Ở đây, tôi sẽ giải thích bằng một ví dụ đơn giản như sau. 
'Thử tưởng tượng rằng chúng ta có một dãy số gồm 3 giá trị: 1, 6, và 5. Số trung 
bình là £ =(1+6+5)/3=4. 

Bây giờ, thử tưởng tượng nếu chúng ta có một dãy số liệu khác cũng 3 giá 
trị, và biết rằng: 

(a) giá trị trung bình là 4; 

(b) và 2 giá trị đầu là 1 và 6, nhưng không biết giá trị thứ ba (tạm gọi là x). 
Nói cách khác, chúng ta có [1, 6, x]. 

Tuy không biết giá trị x, nhưng chúng ta có thể tính được x và trong trường. 
hợp này x phải là 5, chứ không thể con số nào khác. 

Giả dụ thêm rằng chúng ta biết giá trị trung bình của 3 số là 3, và biết rằng 
hai số đầu là 1 và 6. Vậy thì số thứ 3 nhất định phải là 2, vì: 
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(1+6+2)/3=3. 

Hai ví dụ trên cho thấy 2 giá trị đầu tự do biến thiên, nhưng giá trị thứ 3 
thì cố định khi chúng ta biết giá trị trung bình. Hai giá trị tự đo biến thiên gọi là 
*degree oƒƒfreedom”. Bậc tự do trong trường hợp này bằng 2. 

Do đó, trong thống kê học, bậc tự do có thể định nghĩa là số giá trị tự do. 
biến thiên sau khi đã biết được một tham số. Nếu tham số là giá trị trung bình 
được tính từ m giá trị, thì bậc tự do là ø - 1. 





Câu hỏi 4.1 (Phân bố chuẩn). Biết rằng chiều cao của nữ người Việt 
trong độ tuổi 20-30 tuân theo luật phân bố chuẩn (normal distribution), với 
trung bình 156 cm và độ lệch chuẩn 6.0 em. Có bao nhiêu người có chiểu 
cao: 





(a) cao hơn 170 em; 
(b) trong khoảng 150 và 156 cm? 











Đáp: Dùng hàm pnorm trong R, chúng ta có thể trả lời câu hỏi trên. Hàm 
pnorm(x, mean, sd) tính xác suất một biến số có giá trị bằng hoặc thấp hơn x. 
(a) Do đó, xác suất chiểu cao bằng hoặc cao hơn 170, với trung bình 156 và 
độ lệch chuẩn 6, là 999%: 
> pnorm(170, mean=156, sd=6) 
[1] 0.9901847 
Nói cách khác, xác suất chiểu cao cao hơn 170 cm là 0.98%: 
> 1-pnorm(170, mean=l56, sd=6) 
[1] 0.009815329 
(b) Tương tự, chúng ta có thể tính xác suất nữ có chiểu cao trong khoảng, 
150 và 156 cm như sau. Kết quả là 34.1%. 
> pnorm(156, mean=l56, sd=6) - pnorm(150, mean=l56, 
sd=6) 
[1] 0.3413447 
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Câu hỏi 4.2 (Phân bố chuẩn). Kết quả phân tích một hormone trên 35 
bệnh nhân cho thấy giá trị trung bình là 52 và độ lệch chuẩn là 12. Nếu xem 
đây là một quần thể, và nếu chúng ta chọn 10 người ngẫu nhiên trong quần 
thể này, xác định xác suất một bệnh nhân có giá trị trong khoảng 45 đến 55. 











Đáp: Chúng ta có thể dùng R để trả lời câu hỏi trên: 

mean = 52; sd = 12 

se = sd/sqrt (10 

pnorm(55, mean, se) - pnorm(45, mean, se) 

Kết quả là 75.3%. Nói cách khác, nếu chúng ta lấy mẫu rất nhiều lần, và mỗi 
lẩn là 10 bệnh nhân, thì 75.3% bệnh nhân trong các mẫu đó sẽ có giá trị từ 45 
đến 55. 





Câu hỏi 4.3 (Phân bố nhị phân). Trong một cuộc thi toán, có 12 câu 
hỏi, và mỗi câu có 4 trả lời (và chỉ có 1 trả lời là đúng). Tìm xác suất một học 
sinh trả lời đúng 6 câu do ngẫu nhiên. 











Đáp: Chúng ta biết rằng xác suất trả lời đúng 1 câu là 1/4 = 0.25. Do đó, xác 
suất trả lời đúng 6 câu do ngẫu nhiên là 4%: 

> dbinom(6, 12, prob=l/4) 

[1] 0.04014945 

Xác suất trả lời đúng 5 câu ngẫu nhiên là 

> dbinom(5, 12, prob=l/4) 

[1] 0.1032414 


Tương tự, chúng ta có thể tính xác suất cho 4 câu, 3 câu, 2 câu, 1 câu và 0 
câu. Một cách khác là tính xác suất tích luỹ trả lời đúng 6 câu hoặc ít hơn (trong 
12 câu) một cách ngẫu nhiên là 98.6%: 

> pbinom(6, size=12, prob=1/4) 

[1] 0.9857472 





Câu hỏi 4.4 (Phân bố Poisson). Vi trùng coliform hiện diện ngẫu nhiên 
trong sông với nồng độ 1 trên 20 cc nước. Nếu chúng ta lấy 10 cc nước từ 
sông, xác suất mà mẫu đó có 2 vi trùng coliform là bao nhiêu? 
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Đáp: Có thể giả định rằng phân bố của vi trùng trong nước tuân theo luật 
phân bố Poisson. Nếu nồng độ trung bình là 1/20 cc thì với 10 cc nước, chúng ta 
kì vọng nồng độ là r = 0.5. Có thể dùng R để tính xác suất này như sau (7.6%): 

> dpois(2, 0.5) 

[1] 0.07581633 


Xác suất có 2 hay hơn vi trùng là 98.6%: 
> ppois(2, 0.5) 
[1] 0.9856123 





Câu hỏi 4.5 (Phân bố mũ). Thời gian chờ đợi để được phục vụ trong 
một bệnh viện tuân theo luật phân bố hàm số mũ (exponential đistribution). 
Nghiên cứu trong quá khứ cho biết tính trung bình, mỗi bệnh nhân chờ 
khoảng 150 phút để được gặp bác sĩ. Tính xác suất một bệnh nhân được gặp 
bác sĩ dưới 2 giờ. 











Đáp: Hàm pexp(x„ 1/mean) có thể giúp chúng ta tính xác suất cần 
thiết. Xác suất một bệnh nhân được phục vụ ngắn hơn 2 giờ là 55%. Nói cách 
khác, khoảng 55% bệnh nhân được phục vụ trong vòng 2 giờ chờ. 

> pexp(120, 1/150) 

(1] 0.550671 





Câu hỏi 4.6 (Luật số lớn). Luật số lớn (law of large number) phát biểu 
rằng nếu một biến số X (không cấn biết tuân theo luật phân bố chuẩn hay 
không) có giá trị trung bình là u, và nếu chúng ta lấy mẫu ngẫu nhiên, mỗi 
lần với ø đối tượng, và tính trung bình mẫu x; khi ø càng cao thì giá trị x càng 
gần với I. Chứng mình phát biểu đó. 











Đáp: Chúng ta có thể chứng minh qui luật này bằng R như sau. Trong mô. 
phỏng dưới đây, chúng ta mô phỏng 10000 lần một biến số X gồm 2 giá trị 0 và 
1, Nói cách khác, chúng ta tung một đồng xu 10 ngàn lần và kết quả mỗi lần là 0 
hay 1. Chúng ta biết rằng về lâu dài, xác suất 1 xuất hiện là 0.5. Biểu đồ dưới đây 
cho thấy khi cỡ mẫu zø càng lớn thì trung bình càng gần 0.5: 

set. seed (123) 

n = 10000 
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x = sample(0:1, n„ replace=T) 

§ = Cumsum(x) 

s/(1:n) 

plot(r, ylim=c(0.40, 1.00), type=”1“) 


r 


lines(c(0, n), c(0.5, 0.5), col=“red”) 


r 
04 05 06 07 08 09 10 


0 2000 4000 6000 8000 10000 
Index 


Trong mẫu dưới đây, chúng ta lấy mẫu một biến ngẫu nhiên x có trung bình 
68 và độ lệch chuẩn 5.5. 

n = c(1:10000) 

x = rnorm(10000, mean=68, sd=5.5) 

§ = cumsum(x) 

plot(s/n, xlab=”n”, ylab=”“Trung bình mẫu”, type=“1“) 

abline(a=68, b=0, col=”red”) 


Trung bình mẫu 
68 69 70 


66 67 





0 2000 4000 6000 8000 10000 
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Câu hỏi 4.7 (Định lí giới hạn trung tâm hay Central Limit Theorem - 
CLT) phát biểu rằng nếu x,„x,„ x„.... x, là mẫu từ bất cứ phân bố nào (không 
hẳn là phân bố chuẩn) với trung bình ti và phương sai ở, thì trung bình mẫu 
xbar sẽ tuân theo luật phân bố chuẩn với trung bình ụ và phương sai ơ3/n. 
Chứng minh định lí này bằng R. 











Đáp: Chúng ta có thể chứng minh bằng mô phỏng. Giả dụ rằng chúng ta có 
một quần thể gồm 10 học sinh với cân nặng như sau: 

wt = c(85, 61, 75, 56, 72, 70, 68, 65, 57, 80) 

Quần thể này có trung bình là 68.9 và phương sai 90.8. Bây giờ, chúng ta lấy 
mẫu 7 học sinh từ quần thể và tính trung bình và phương sai: 


samplel = sample(wt, 7) 


mean (sample1); var (sample1) 


sample2 = sample(wt, 7) 
mean (sample2); var (sample2) 


sample3 = sample(wt, 7) 
mean (sample3); var (sample3) 


Y.V. 


Cứ mỗi lần lấy mẫu là mỗi lần chúng ta có một trung bình và một phương 
sai. Nếu chúng ta lặp lại 1000 lần, và mỗi lần chúng ta tính trung bình và phương 
sai, thì sau cùng chúng ta sẽ có 1000 giá trị trung bình mẫu (sample means) và 
1000 phương sai mẫu (sample variance). 


set. seed (123) 
n = 1000 
sample.means = numeric (n) 
for (¡ in 1:n) ( 
samplei = sample(wt, 7) 


sample.means[i] = mean (samplei) 
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v / 4 _- 
@® Phân tích mô tả bằng biểu đồ 


— V 





5.1 Biểu đồ trong khoa học 


Biểu đổ có một lịch sử phát triển rất thú vị. Trước thế kỉ 18, dữ liệu khoa 
học thường được trình bày bằng bảng số liệu (tables), và biểu đổ được xem là vô 
dụng. Nhưng quan điểm này rất ử là sai lầm. Năm 1786, William Playfair (một 
nhà kinh tế chính trị học) sáng chế ra biểu đồ thanh (bar chart) và biểu đồ đường 
đây (line graph) mà chúng ta vẫn còn sử dụng cho đến ngày nay. Năm 1801, 
Playfair lại sáng chế ra biểu đổ bánh (pie chart) mà sau này trở nên rất thông 
dụng trong giới kinh tế học và xã hội học. Mãi đến năm 1832, nhà thiên văn học 
người Anh là Alenander S. Herche sáng chế ra biểu đồ tán xạ (scatter plot) và trở 
thành rất phổ biến trong khoa học thực nghiệm. 


Biểu đồ đóng vai trò rất quan trọng trong khoa học và nghiên cứu khoa học. 
Những biểu đồ được soạn cẩn thận và có suy nghĩ có thể cung cấp những thông 
điệp quan trọng của công trình nghiên cứu. Thật vậy, biểu đồ là một phương tiện 
khám phá. Đó không phải là một phát biểu thậm xưng, mà là sự thật. Đứng trước 
một rừng dữ liệu với hàng triệu mẫu từ DNA và con số, nếu không có biểu đồ thì 
không cách gì rút ra được những qui luật trong kho tàng đữ liệu, không thể nào. 
tìm được những mối tương quan, thậm chí không thấy được xu hướng phân bố. 
Do đó, biểu đồ đóng vai trò cực kì quan trọng trong nghiên cứu khoa học. 

Không chỉ là một phương tiện khám phá, biểu đồ còn là một phương tiện để 
truyền đạt khám phá. Một biểu đồ nếu được thiết kế cẩn thận sẽ có hiệu ứng rất 
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lớn. Sách giáo khoa thường có những biểu đổ nổi tiếng đến mức có thể xem là 
lịch sử. Tương tự, trong những buổi giảng của các chuyên gia, chúng ta thấy có 
nhiều biểu đổ được trình bày nhiều lần ở nhiều nơi, vì đó là những biểu đồ thể 
hiện những phát hiện quan trọng trong khoa học. Đó là những biểu đồ đi vào 
kho tàng tri thức nhân loại như là những icon. 

Với sự phát triển của máy tính và các chương trình phân tích dữ liệu, việc 
soạn thảo các biểu đố càng ngày càng đễ dàng hơn. Thật vậy, chỉ cần một chương 
trình phổ biến như Excel, hay cao hơn một chút là chương trình phân tích thống 
kê (như SAS chẳng hạn), các nhà khoa học có thể tạo ra những biểu đồ hấp dẫn 
và đa dạng. Thế nhưng, ngạc nhiên thay, trong thực tế vẫn còn rất nhiều biểu đồ 
trong bài báo khoa học được thiết kế một cách rất cẩu thả, chẳng theo một qui 
tắt nào cả, và làm cho thông điệp của bài báo trở nên khó hiểu. 


5.2 Nguyên tắc soạn biểu đồ 


Biểu đồ là một cách trình bày dữ liệu khoa học rất hữu hiệu. Người Trung 
Hoa từng có câu một hình ảnh có giá trị tương đương với một vạn chữ. Thật vậy, 
đối phó với một rừng số liệu thu thập từ thí nghiệm, vấn để đặt ra là làm sao 
khai thác những số liệu này một cách hữu hiệu nhất. Hữu hiệu ở đây phải hiểu 
là chuyển tải thông tin sao cho cho người xem cảm thấy dễ lĩnh hội nhất. Có ba 
cách để thể hiện dữ liệu khoa học: dùng chữ viết, bảng số liệu, và biểu đồ. Chữ 
viết chỉ có thể sử dụng cho những dữ liệu rất đơn giản, chứ không thể hiện được 
tất cả những xu hướng và dao động của dữ liệu. Bảng số liệu có thể sử dụng cho. 
trường hợp tóm lược những thông tin mang tính chính xác cao. Nhưng biểu 
đồ có thể sử dụng để chuyển tải những thông điệp về mức độ ảnh hưởng và xu 
hướng biến thiên của dữ liệu. Do đó, đứng trước quyết định chọn hình thức để 
thể hiện dữ liệu, biểu đồ phải và nên xem là một hình thức số 1. 

Để thiết kế biểu đồ một cách hữu hiệu, cần phải làm quen với cái tên Edward. 
Tufte, vì ông là một gurw về biểu đổ. Ông là giáo sư thống kê học của Đại học 
Yale, giáo sư chính trị học, và giáo sư khoa học máy tính (cũng tại Yale), là người 
đã có ảnh hưởng cực kì lớn đến lĩnh vực trình bày dữ liệu bằng biểu đổ, qua 
những công trình có thể nói là đặt nền tảng cho lĩnh vực này (có khi được để 
cập đến như là đafa visualization). Ông là người đám thể chấp căn nhà mình 
cho ngân hàng để vay một số tiền làm nghiên cửu và cho ra công trình về dafa 
visualization mà sau này ông không bao giờ hối hận (vì quá thành công về tài 
chính!) Báo New York Times gọi ông là Leonardo Da Vinci oƒ Data. 
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Edward Tufe đặt ra triết lí và 4 nguyên tắc trong trình bày dữ liệu bằng biểu. 
đồ. Triết lí của thể hiện dữ liệu có thể tóm lược trong câu sau đây: “Graphical 
excellence is that which gives to the viewer the greatest number of ideas in the 
shortest time with the least ink in the smallest space” (tạm dịch: ứriết lí của trình 
bày dữ liệu bằng biểu đổ là cung cấp cho người xem một lượng thông tin cao nhất 
trong một thời lượng nhỏ nhất với lượng mực in thấp nhất trong một không gian 
nhỏ nhất). Như vậy, khi trình bày đữ liệu bằng biểu đồ, cần phải chú ý đến 4 khía 
cạnh: lượng thông tin, thời gian, lượng mực in, và không gian. Triết lí này có thể 
xem như là một triết lí hà tiện, tốn ít tài lực nhất để có nhiều thông tin nhất. Để 
đạt được triết lí đó, Tufte đặt ra 4 nguyên tắc: phản ảnh đữ liệu một cách đầy đủ, 
tối ưu hoá tỉ số dữ liệu trên mực in, tối ưu hoá mật độ dữ liệu, và trình bày dữ 
liệu chứ không phải trang trí biểu đồ. 

Nói lên sự thật về dữ liệu. Mục tiêu của bất cứ biểu đổ nào cũng là chuyển 
tải thông tin đến người đọc, và do đó, biểu đồ cần phải nói lên sự thật của dữ 
liệu. Sự thật ở đây có nghĩa là những dao động của dữ liệu trong mỗi hay giữa 
các nhóm so sánh. Chẳng hạn như một biểu đồ thanh (bar chart) trình bày số 
trung bình về huyết áp giữa nhóm can thiệp và nhóm chứng là chưa phản ảnh 
sự thật của dữ liệu, bởi vì chúng ta biết rằng huyết áp của các cá nhân trong mỗi 
nhóm dao động khá lớn. Do đó, một biểu đồ có ý nghĩa hơn là biểu đồ hộp (box 
ploÐ), hay tốt hơn nữa là biểu đồ hộp cộng với những số liệu cho fửng cá nhân 
trong mỗi nhóm. 

Tối đa hoá tỉ số dữ liệu trên mực in. Trong một biểu đồ có số liệu và mực in. 
Mục tiêu của nhà khoa học là trình bày dữ liệu càng nhiều càng tốt so với lượng 
mực in. Những biểu đổ bánh (pie chart) mà tôi vừa trình bày trên đây cho thấy 
số liệu rất ít so với lượng mực in (thậm chí có biểu đồ còn dùng cả hai màu!) 
Những biểu đồ này, vì thế, có tỉ số dữ liệu trên số mực in quá thấp. 

Tối đa hoá mật độ dữ liệu. Mật độ dữ liệu có thể ước tính bằng cách lấy 
lượng số liệu chia cho điện tích của biểu đồ. Nguyên tắc quan trọng trong trình 
bày dữ liệu là phải tối đa hoá tỉ số này. Các biểu đổ trình bày trên đây có mật độ 
đữ liệu rất thấp, và do đó, chưa đạt yêu cầu của một biểu đồ có chất lượng cao. 

Trình bày dữ liệu một cách đầy đủ, không phải trang trí biểu đổ. Có những 
biểu đồ mà tác giả trình bày số liệu qua những hình thức rất khác nhau. Chẳng 
hạn như biểu đồ sau cùng trong số 4 biểu đồ tôi lấy ra làm ví dụ trên đây cho 
thấy chỉ là một dữ liệu giữa nhiều nhóm, nhưng nếu tác giả cố gắng thể hiện mỗi 
nhóm một khác. Trong trường hợp này, có thể nói rằng tác giả chịu khó trang trí 
cho biểu đổ hơn là làm cho số liệu được phản ảnh một cách đẩy đủ. 
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5.3 Giới thiệu package `ggp1ot2“ trong R 


Trong R có một gói *gqp1ot2” do tác giả Hadley Wickham phát triển và 
phổ biến là một nhu liệu rất có ích cho việc soạn biểu đồ phẩm chất cao. Trong 
phần này, tôi mô tả một số nét chính của ggplot2 để soạn biểu đồ khoa học, chứ 
không thể mô tả hết các lệnh và lựa chọn trong nhu liệu này. Bạn đọc có thể 
tham khảo cuốn sách của Hadley Wickham, “ggplot2: elegant graphics for data 
analysis” (Springer, 2009) để biết thêm chỉ tiết. 


Cú pháp của như liệu ggplot2 mô phỏng theo họa sĩ để soạn biểu đồ. Theo. 
đó, mỗi biểu đổ có nhiều layer (lớp); mỗi lớp có một chức năng riêng. Hàm quan 
trọng trong ggploU là *ggp1e©t”. Để minh họa cho khái niệm layer này, chúng 
ta thử thể hiện mối liên quan giữa hai biến liên tục pe£at và bmi trong một dữ 
liệu có tên là eb: 

Vào đầu, chúng ta dùng hàm ggplot để định nghĩa biến x và biến y, và lưu 
trữ trong đối tượng tên p: 





P “ ggplot(data=ob, aes(x=bmi, y=pcfat)) 


trong lệnh trên aes (viết tắt chữ aesthetics) đùng để định nghĩa biến cần thể 
hiện. Sau khi xong lệnh này, R tạo ra một đối tượng p nhưng chưa có kết quả. Để 
có kết quả chúng ta phải thêm một layer về hình học (geometry) để thể hiện dữ 
liệu cho mỗi cá thể 
pP=Pp+g 








m_point () 


kết quả sẽ là: 





15 20 25 3o 3s 
bmi 
Có nhiều hình thức thể hiện geom. Nếu chúng ta muốn thể hiện bằng đường 
nối kết thì có thể dùng: 
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và kết quả sẽ là: 


pcfat 





15 2o 25 so 35 
bmi 


Nhưng có lẽ biểu đồ scatter (tức “dot”) hợp lí hơn. Nếu chúng ta muốn thêm 
một đường biểu diễn: 


P =P +† geom point() + geom smooth() 


50~ 





40~ 
#a- 
L3 
20- 
tứ 
15 20 25 3o 35 
bmi 


Biểu đồ trên cần thêm các nhãn để dễ đọc. Chúng ta dùng xiab, ylab và 
ggtitle để viết nhãn và tựa để của biểu đồ: 
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s0 


Percent body fat 
# ñ 


Distribution of PBE 











Body mass index 


Chúng ta cũng có thể thể hiện các dấu chấm bằng màu cho hai giới tính 


(biến gender). Bây giờ toàn bộ cú pháp sẽ là: 
P = ggplot (data=ob, 


aes (x=bmi, 


y=pcfat, fill=gender) ) 


P + geom point (aes (col=gender) ) 


P =P + x1ab(*Body mass 


fat”) 


index”) 


„ 


+ 


geom_smooth () 


ylab(*Percent body 


+ ggtitle(*Distribution of PBF”) 


Percent body fat 


Distributlon ofP8F 


20 


25 
Body mass index 


3o 





$5 
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Chúng ta có thể dùng mô hình đa thức bậc 2 (qua công thức y ~ x + I(x^2)) 
để thể hiện mối liên hệ giữa bmi và pcfat, và để legend ở phía dưới biểu đồ: 


P = ggplot(đata=ob, aes(x=bmi, y=pcfat, fill=gender)) 


PÐ=P † geom point(aes(col=gender)) + geom_ 
smooth (method=”1m”, £ormula=y~x+1 (x^2) ) 


P=P + xlab(*Body mass index”) + ylab(*Percent body 
fat”) + ggtitle(*Distribution of PBF”) + theme(legend. 
position=”bottom”) + theme bw() 





kodymastrde 
Chúng ta có thể thay đổi màu nến theo phong cách của tạp chí "The 
Economist” bằng cách dùng gói “ggthemes”: 
1ibrary (ggthemes) 
PÐ =Pb+ theme economist () 
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Tóm lại, gói "ggplot2” là một nhu liệu rất có ích cho việc soạn biểu đồ có 
phẩm chất ở mức độ xuất bản. Gói ggplot2 có thể vẽ hầu hết các biểu đồ phổ biến 
trong khoa học, như biểu đồ thanh, biểu đồ phân bố, biểu đồ hộp, biểu đồ tương 
quan, biểu đổ sống còn. 





Câu hỏi 5.1 Biểu đồ phân bố. Dữ liệu nghiên cứu xương có một biến 
về tỉ trọng mỡ trong cơ thể (percent body fat - pc£at). Hãy mô tả biến này 
bằng một biểu đồ phân bố. 











Đáp: Trước hết, cẩn đọc dữ liệu vào R, và sau đó dùng hàm hi st () : 


bone = read. 





ta.csv”, header=T) 


Chúng ta thử thể hiện phân bố của pcfat với màu xanh và 20 thanh: 





1=“blue”) 





hist (bone$pcfat, breaks=20, 


Hiotogram øf bone$pcfat istributlon øf percent body fat 





8 s 
Ỹ 8 Ề 5 
"8 š§®8 | 
° ° | B 
1Ð 20 30 4050 
bone$pcfat Percent body at 


Kết quả là biểu đồ bên trái. Biểu đồ trên có thể cần cải tiến thêm. Những 
khía cạnh cần cải tiến là thêm nhãn cho trục tung (ylab) và trục hoành (xlab), 
thêm những khoảng giá trị từ 5 đến 50% (xlim), và thêm tựa để (main). Biểu đồ 
bên phải thể h 

hist (bone$pcfat, breaks=20, 





ện nhưng thay đổi đó. 





col=”blue”, 





border=”white”, 





xlab=”Percent body 
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ylab=“Number o£ people”, 
=c(5„ 50) 


main=”DistribuEion o£ percent body £at”) 





sỹ 


Một cách khác để thể hiện biểu đổ phân bố là thêm đường biểu diễn xác suất 
mật độ. Nhưng để thêm đường biểu diễn, trục tung của biểu đồ phải được thể 
hiện bằng xác suất (prob=T) , và thêm hàm 1ines. 

hist (bone$pcfat, prob=T, 





breaks=20, col=”blue”, border=“white”, 
xlab=”Percent body fat”, 

ylab=“Number of people”, 

xlim=c(5„ 50), 


main=”Distribution o£ percent body £at”) 
1ines (density (na.omit (bone§pcfat)), col=”“red”, 1wd=3) 


Distributlon f percent body fat 


Numberofpeople 
000 001 002 003 00% 005 006 


Percent body (at 





Câu hỏi 5.2 Biểu đồ phân bố theo nhóm. Hãy thể hiện phân bố của tỉ 
trọng mỡ toàn thân theo giới tính. 





Đáp: Trong dữ liệu bone, giới tính là biến *sex” gồm hai giá trị *E” (nữ) 
và "M” (nam). Để thể hiện phân bố pcfat theo sex, chúng ta cần phải dùng đến 
chương trình ggp1ot2 như sau: 


1ibrary (ggplot2) 
P = ggplot(data=bone, aes(x=pefat, fill=sex)) + geom_ 


đensity (alpha=0. 3) 
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# Thêm nhãn cho trục tung và trục hoành 
p + xlab(*Percent body fat”) + ylab(*Probability”) 


Kết quả của hàm trên có thể xem qua biểu đồ bên trái dưới đây. Tuy nhiên, 


chúng ta cần thêm số trung bình cho mỗi nhóm để biểu đồ có thêm thông tin. 
Chúng ta sẽ sử dụng chương trình plyr để tính trung bình cho nam và nữ trước 
khi vẽ biểu đồ: 


006 


004: Ũ 
„ 


003- 


1ibrary (plyr) 


means= ddply(bone, «sex”, sunarise,average=mean (na. 
omit (pefat) ) ) 


Ð = ggplot (data=bone, aes (x=pefat, fi1l=sex) ) 


P =P + geom histogram(position=“identity”) 


P + geom vline(data=means, aes(xintercept=average, 
colour=sex), linetype-”dashed”, sizerl) + theme(legend. 
position=“bottom”) 





000- 


Ta j số + sb 
pcat 
1b ho háo -8m8:m« 
Percent body fat 


Chú ý trong biểu đổ bên phải, chúng ta đặt bị chú ở phía dưới bằng cách 


thêm lệnh theme (1egend.position=”bottom”) . 


Ngoài ra, chúng ta cũng có thể dùng ggplot2 để thể hiện phân bố theo giới 


tính, nhưng dùng hai biểu đồ riêng: 





Ð = ggplot (data=bone, aes(x=pefat, íill=sex) ) 


P =P † geom histogram(aes(y=..density..), 
color=”white”, fill=”blue”) + geom 
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density (alpha=0.5,col=”red“) +facet grid(sex ~.) 
# Thêm nhãn cho trục tung và trục hoành 

PÐ =b + xlab(*Percent body fat”) + ylab(*Probability”) 
# Dùng màu nền là trắng đen và không dùng legend 


p + theme bw() + theme (Legend.position=“none”) 
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Câu hỏi 5.3 Biểu đồ hộp. Hãy thể hiện phân bố của mật độ xương bằng 
biểu đồ hộp. Biến số liên quan là £nbmd (đơn vị là g/cm)). 





Đáp: Biểu đồ hộp là một cách thể hiện các thông tin thống kê cho một biến 
liên tục rất có ích, hay hơn các biểu đồ thanh. Trong R có hàm boxp1ot () thích 
hợp cho vẽ biểu đổ hộp. Cách vẽ đơn giản nhất là 

boxp1ot (bone$§£nbmd) 

nhưng cách vẽ này nhìn rất thô sơ, chưa đủ phẩm chất cho một biểu đồ khoa 

học. Chúng ta có thể thêm màu, nhãn, và tiêu đề: 


`boxplot (bone§£nbmd„ 





col=“green“, 
main=“Distribution o£ femoral neck BMD“”, 


ylab=”BMD (g/cm^2) “) 
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Distribution of femoral neck BMD. Distribution of femoral neck BMD. 








BMD (g/cm°2) 
06 08 











BMD (g/cmˆ2) 
04 06 08 10 





Vấn để của biểu đổ trên là chưa trình bày được mật độ của dữ liệu. Một cách. 
khác là dùng dạng “biểu đồ đậu” (tức beanp1or). Với beanplot, chúng ta có thể 
hình dung được dữ liệu tập trung vào khoản nào của phân bố. 

1ibrary (beanploE) 


beanp1ot (bone$£nbmd, 
col=c(*blue“, *red“, "purple”), 
border=”cyan”, 
main=”Distribution o£ femoral neck BMD”, 
ylab=“BMD (g/cm^2) ”) 
Kết quả của biểu đổ hạt đậu là hình bên phải. Như có thể thấy từ biểu đồ, 
phần lớn các cá nhân có mật độ xương từ 0.5 đến 1.0 g/cmỶ, với trung vị là 
khoảng 0.70 g/cm° (thể hiện bằng đường gạch ngang tô đậm). 





Câu hỏi 5.4 Biểu đồ hộp theo nhóm. Hãy thể hiện phân bố của mật độ 
xương (tên biến số là £nbmd. (đơn vị là g/cm?)) bằng biểu đồ hộp, phân chia 
theo giới tính. 











Đáp: Chúng ta vẫn dùng biểu đồ đậu để thể hiện mật độ xương theo giới 
tính: 


beanplot (bone$fnbmd ~ bone§sex, col=c(*blue”, *red”, 
*purple”), border=“cyan“, main=“Distribution of femoral 
neck BMD“, ylab=“BMD (g/cm^2)”) 
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Distribution of femoral neck BMD. Distribution of femoral neck BMD. 
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Nhưng chúng ta cần phải viết rõ hai nhóm là “Females” và “Males” (thay vì 
E và M) bằng cách dùng lệnh names, và kết quả là biểu đồ bên phải. 

beanp1ot (bone§fnbmd ~ bone§sex, col=c(*blue“, *red”, 

*purple”), border=”cyan”, main=“Distribution of femoral 

neck BMD”, ylab=“BMD (g/cm^2)”, names=c(`Females“”, 

"Males“) ) 





Câu hỏi 5.5 Biểu đổ hộp theo nhóm và thêm giá trị cá thể. Hãy thể 
hiện phân bố của mật độ xương fnbmd bằng biểu đồ hộp, phân chia theo giới 
tính, nhưng thêm giá trị của mỗi đối tượng. 











Đáp: Để giải đáp yêu cầu trên, chúng ta cần phải dùng package "ggplot2”” 

1ibrary (ggp1ot2) 

P = ggplot (bone, aes(x=sex, y=£fnbmd, fill=sex) ) 

P “PP + geom boxplot (aes(fill=sex), alpha=1) 

PÐ =P + geom jitter(aes(color=sex, outlier. 

colour=”red”), size=1.5, alpha=0.5) 

Có thể thay đổi giá trị alpha từ 0.1 đến 0.9 và kích thước size = 0.5 đến 1.5 
chúng ta sẽ có biểu đồ khác. Tuy nhiên, kết quả của các hàm trên là biểu đồ 
dưới đây: 
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Câu hỏi 5.6 Biểu đồ hộp theo 2 nhóm và thêm giá trị cá thể. Hãy thể 
hiện phân bố của mật độ xương fnbmd bằng biểu đồ hộp, phân chia theo giới 
tính và từng độ tuổi. 











Đáp: Để giải đáp yêu cầu trên, chúng ta cần phải phân nhóm tuổi và tạo ra 
biển mới là agegroup như sau: 

bone§agegroup[bone$age < 30] <- *Under 30” 
30 & bone$age < 40] <- *30-39“ 
40 § bone$age < 50] <- *40-49” 


bone$agegroup [bone$age 





bone$agegroup [bone§age 
bone$agegroup [bone$age >= 50 & bone§age < 60] <- *50-59“ 
bone$agegroup[bone§age >= 60] <- *60+” 


bone§agegroup = factor (bone$agegroup, levels=c(*Under 
30”, *30-39”, 40-49”, 50-59”, "60+“)) 


Sau đó, dùng ggplot2: 
P = ggplot(bone, aes(x=agegroup, y=fnbmd, íi1l=sex) ) 
P =P + geom boxplot (aes(fill=sex), alpha=1) 


P =P +† geom jitter(aes(color=sex, outlier. 
colour=”red”), size=l.5, alpha=0.5) 


P 
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Câu hỏi 5.7 Biểu đồ thanh. Chia biến body mass index (bmi) thành 4 
nhóm: thiếu cân, bình thường, quá cân, và béo phì. Sau đó vẽ biểu tần số của 
bốn nhóm. 











Đáp: Theo tiêu chuẩn của Tổ chức Y tế Thế giới (WHO), tiêu chuẩn để phân 
nhóm béo phì (obese), quá cân (overweight), bình thường (normal) và thiếu cân 
(underweight) là như sau: 

obese, nếu BMI > 30 

overweight, nễu BMI 3 25, nhưng BMI < 29 
normal, nễu BMI 3> 18.5, nhưng BMI < 25 
underweight, nếu BMI < 18.5 

Chúng ta có thể mã hoá trong R như sau. Trước hết tạo ra một biến mới, gọi 
là ob và gắn vào đữ liệu bone: 

bone$ob[bone$bmi < 18.5] <- *Underweight” 

bone$ob[bone$bmi >= 18.5 & bone$bmi < 25.0] <- *Normal“ 


bone$ob[bone§bmi >= 25.0 & bone§bmi < 30.0] <- 
"Overweight” 


bone$ob[bone$bmi >= 30.0] <- "Obese” 
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# Giữ thứ tự của biến ob bằng cách dùng levels, và tạo ra một biến mới là 
gToup: 

bone$§group -= factor (bone$§ob, levels=c(*Underweight”, 

*Normal”, "Overweight”, *Obese”)) 


# Xác định số cá nhân trong mỗi nhóm 
t = table (bone§group) 


Underweight Normal Overweight Obese 
54 392 92 6 


# vẽ biểu đồ tấn số 
barplot(t, ylim=c(0, 400)) 


m= R mx 
Underweight Normal 


'Ovenweight Obese 


100 200 300 400 


ø 


Một cách vẽ "đẹp” hơn và nhiều thông tin hơn là dùng hàm sjp.frq trong 
chương trình sjPlot và sjmisc: 

sjp. £rq (bone$group) 

hoặc: sjp.£rq(bone$group, coord.flip=T) 
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Câu hỏi 5.8 Biểu đồ thanh theo nhóm. Chia độ tuổi trong dữ liệu bone 
thành 5 nhóm: dưới 30, 30 đến 39, 40 đến 49, 50 đến 59, và 60 trở lên. Trình 
bày biểu đồ số đối tượng theo nhóm độ tuổi và giới tính. 











Đáp: Trước hết, chúng ta tạo ra một biến mới tạm gọi là agegroup. Sau 
đó, cách giải đáp câu hỏi này là dùng biểu đồ thanh với “stack bard”. Chúng ta sẽ 
đùng package ggplot2 như sau: 

bone$agegroup[bone$age < 30] <- «Under 30» 

bone$agegroup[bone§$age >= 30 & bone$age < 40] <- «30-39» 

bone§agegroup[bone§age >= 40 & bone§age < 50] <- «40-49» 

bone§agegroup[bone§age >= 50 & bone§age < 60] <- «50-59» 


bone$agegroup [bone$age >= 60] <- «60+» 


bone§agegroup = factor (bone$agegroup, levels=c (*Under 
30”, "30-39%, "40-49”, "50-59%, "60+”)) 


= gaplot (data=bone, aes (x=agegroup, fill=sex) ) 
=p + geom bar(aes(y = (..count..) /sum(..count..)})) 


=p + xlab(*Age group”) + ylab(*Proportion”) 


'td tƠ JƠ lƠ 
I 


87 


'lpe/fielun heploerg 








£ 
010~ M 
0605- 
Under30 3039 4049 — 5059 60+ 


Agegroup. 
Chúng ta cũng có thể tính phần trăm nam và nữ cho từng độ tuổi, bằng cách 
dùng package "dplyr” như sau: 
1ibrary (dp1yr) 
P = 99plot(bone 3>š count(agegroup, sex) 5>? 
muEate (pct=n/sum(n)), aes (agegroup, n, fill=sex)) 
PP.“ P † geom bar(stat=”identity”) 


P =P+† geom text (aes (label=paste0 (sprintf (*$1.1f”, 
pet*100),”$”))„ position=position_stack(vjust=0,5) ) 


P + xlab(*Age group”) + ylab(*Percent”) 


Percent 





Một cách thể hiện khác là dùng hàm sjp.grp£frq_ trong chương trình 
SjP1ot và sjmisc: 


sip.grpfrq (bone§agegroup, bone§sex, bar.pos=“stack”) 
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1o0- 
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m‹ 
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Under30 3039 4049 
age group. 


Ngoài ra, có thể dùng hàm sjt.xtab (trong chương trình sjPlot và sjmisc) để 
tính phần trăm theo cột và theo dòng: 


sjt.xtab (bone§agegroup, bone$sex, show.row.prc=T, show. 





co1l.pre=T) 
sư Total 
)egr0u| oi 
4gegroup Ẽ t 

58 5 111 
Under 30 52.39 4779 100%, 
15.9% 28.69 20.29 

4i 24 65 
30-39 63.1% 36.99 100%, 
1.2% 13% 11.8% 

95 32 127 
40-49 74.8% 252% 100%. 
26% 17.3% 23.1% 

83 39 122 
50-59 68% 32% 100%. 
227% 21.1% 222% 

88 37 125 
60+ 704% 29.69 100%, 
24.19 20% 22.79 

365 185 550 
Total 664% 33.69 100%. 
100%, 100% 100%, 


A”=15.333 - dƒ=4 - Cramerš V=0.167 - p=0.004 
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Câu hỏi 5.9 Biểu đồ tương quan. Tìm hiểu mối tương quan giữa độ tuổi 
(age) và mật độ xương ở xương cột sống (1 sbmd)). 











Đáp: Hàm đơn giản nhất để thể hiện mối tương quan giữa độ tuổi và mật 
độ xương là plot (y ~ x) hoặc plot(x„ y), trong đó, x là biến trục hoành 
và y là biến thể hiện bằng trục tung. Do đó, chúng ta có thể viết: 





Plot (bone$1sbmd ~ bone§age) 
và thêm các nhãn và dùng kí hiệu biểu đồ là vòng tròn tô đậm (pch = 16): 


plot (bone$1sbmd ~ bone§age, pch=16, xlab=“Age”, 
y1ab=”LSBMD”) 





kết quả của hàm trên là biểu đồ bên trái. Nhưng có lẽ chúng ta cần vẽ thêm 
đường biểu diễn (đường thẳng) từ mô hình hồi qui tuyến tính bằng hàm lm và 
abline. Biểu đồ bên phải: 

plot (bone$1sbmd ~ bone§age, pch=16, xlab=“Age”, 

ylab=”LSBMD”, frame=F) 








m = 1m(bone$lsbmd bone$a 





abline (my c 
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Câu hỏi 5.10 Biểu đồ tương quan theo nhóm. Trình bày mối tương 
quan giữa độ tuổi (age) và mật độ xương ở xương cột sống (1sbmd) theo. 
giới tính. 











Đáp: Để vẽ mối tương quan giữa age và 1sbmd_ theo giới tính (sex), 
chúng ta cần đến chương trình gøp1ot2: 

# gọi package ggplot2: 

1ibrary (gaplot2) 

# vẽ biểu đồ 

P = ggplot (data=bone, aes(x=age, y=lsbmd, shape=sex) ) 

# thêm đường biểu diễn (Im) 

P.=P † geom point() + geom smooth (method=“1m”) 

# thêm nhãn 


p † xlab(*Age”) + ylab(*Lumbar spine BMD”) 


Lumbar spine BMD. 


06~ 


04- 





Nhìn qua biểu đổ trên, chúng ta thấy mô hình hồi qui tuyến tính có vẻ 
không phù hợp với dữ liệu thực tế. Dạng phân bố của dữ liệu cho gợi ý là mô 
hình đa thức bậc 3, theo công thức y~x+I(x^2)+I(x^3), có thể phù hợp hơn: 
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Ð = ggplot(data=bone, aes(x=age, y=1sbmd, col=sex) ) 


# thêm công thức cho mô hình đa thức bậc 3: formula=y~x+I(x^2)+I(x^3)) 


P=P † geom point() + geom smooth(method=”lm”, 
formula=y~x+‡T (x^2) +1 (x^3) ) 


P + xlab(*Age”) + ylab(S*Lumbar spine BMD”) 
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Câu hỏi 5.11 Biểu đổ tương quan đa biến. Trình bày mối tương quan 
giữa độ tuổi (age), tỉ trọng cơ thể (bmi ), tỉ trọng mỡ toàn thân (pcfat), 
lượng cơ (1ean.mass) , và mật độ xương toàn thân (wbbmd).. 











Đáp: Cách tốt nhất và đơn giản nhất là dùng hàm pairs.panels trong 


chương trình psych. Nhưng trước hết, chúng ta cần phải tạo ra một nhóm biển 
số cẩn thiết: 


# chọn biến số 3, 5, 6, 7, 11 trong dữ liệu bone, tương ứng với biến age, bmi, 
pcfat, lean.mass và wbbmd. 
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vars = bone[, c(3, 5, 6, 7, 11)] 
# gọi package psych và dùng hàm pairs.panels: 
1ibrary (psych) 


pairs.pane1s (vars) 


15 25 35 30 40 50 60 


0.30 |-021 |-047Ƒ° 













































































: 0.42 (0.46 0.17 
: ly, pcfat L 
I | LƯP -0.46 ||-0.30/ ° 

' k ` * E: 28 &, lean.mass 0.46 
¬ ;+233xc - LuIẾ: wbbmd Èˆ 





Câu hỏi 5.12 Biểu đổ sống còn (Kaplan-Meier plot). Dữ liệu sau đây 
thể hiện thời gian sống (tính từ lúc chẩn đoán) tính bằng tuần cho 18 con 
chuột. Dấu "*” có nghĩa là chuột còn sống. Hãy thể hiện xác suất sống còn, 
tức biểu đồ Kaplan-Meier, cho nghiên cứu. 

10 13* 18* 

93 97 104* 














Đáp: Chúng ta cần phải sắp xếp đữ liệu thành 2 cột. Cột 1 là thời gian, và 
cột 2 thể hiện tình trạng của chuột (1=chết, 0=sống). 

time = c(10, 13, 18, 19, 23, 30, 36, 38, 54, 56, 59, 75, 

93, 97, 104, 107, 107, 107) 


93 
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> cbind(time, death) 
time death 


[1,] 10 1 
(2,1 13 0 
3,] 18 0 
(4,] 19 1 
(16,] 107 1 
[17,4] 107 0 
(18,] 107 0 


Dữ liệu như trên đã sẵn sàng cho phân tích. Để tính xác suất sống còn, 
chúng ta dùng chương trình suzvival_ trong R như sau: 


# Gọi chương trình 
1ibrary (surviva1) 


# Tính xác suất sống còn và lưu trữ trong biến km: 
baseline = Surv(time, death==1) 


km = survfit(baseline ~1) 


Chúng ta có thể dùng hàm plot đơn giản như: 

plot (km, xlab=”Time (weeks)”, ylab=“Cum. prob.”, 

y1im=e (0,1) 

nhưng biểu đồ không đẹp bảng biểu đồ chuyên dụng trong chương trình 
survminer. 


1ibrary (survminer) 


ggsurvplot (km, risk.table = TRUE, col=”blue”) 
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Câu hỏi 5.13 Biểu đổ sống còn theo nhóm. Dữ liệu dưới đây thể hiện 
thời gian sống còn (tuần) cho 2 nhóm bệnh nhân: Nhóm điểu trị có 21 người, 
và nhóm chứng 21 người. Dấu “+” có nghĩa là sống còn. Thể hiện xác suất 
sống còn theo nhóm bệnh nhân. 

Group 1 (treatment, n=21): 6, 6, 6, 7, 10, 13, 16, 


22, 23, 6+, 9+, 10+, 11+, 17+, 19+, 20+, 25+, 32+, 
32+, 34+, 35+ 


Group 2 (control, n=2l): 1, 1, 2, 2, 3, 4, 4, 5, 5, 
8, 8, 8, 8, 11, 11, 12, 12, 15, 17, 22, 23 











Đáp: Chúng ta cẩn phải sắp xếp dữ liệu thành 3 cột. Cột 1 là thời gian, và 
cột 3 thể hiện tình trạng sống/chết, và cột 3 thể hiện nhóm. Dữ liệu có thể tạm 
lưu trữ trong đối tượng dat: 

time = c(6, 6, 6, 6, 7, 9, 10, 10, 11, 13, 16, 17, 19, 

20, 22, 23, 25, 32, 32, 34, 35, 1, 1, 2, 2, 3, 4, 4, 5, 

5, 8, 8, 8, 8, 11, 11, 12, 12, 15, 1?, 22, 23) 

status = €(0, 0, 0, 1„ 0¿ 1, 0; 1¿ 1, 0, 0, 1„ 1, 1, 

0, 0, 1, 1, 1, 1, 1, 0,0,0,0,0, 0,0,0,0,0, 0,0,0,0,0, 

0,0,0,0,0,0) 


group = €(1,1,1,1,1, 1,1,1,1,1, 1,1,1,1,1, 1,1,1,1,1,1, 
0,0,0,0,0, 0,0,0,0,0, 0,0,0,0,0, 0,0,0,0,0,0) 
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dat = data.frame(time, status, group) 


Sau đó, chúng ta dùng chương trình survival để tính xác suất sống còn cho. 
mỗi nhóm: 

1ibrary) (survival) ; 1ibrary(survminer) 

fit = survfit (Surv(time, status==0) ~ group) 


ggsurvplot (fit, risk.table=T) 
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Câu hỏi 5.14 Biểu đồ lá cây (forest plot). Dữ liệu dưới đây thể hiện hệ 
số ảnh hưởng của một tham số và sai số chuẩn (standard error) của một số 
yếu tố nguy cơ. Hãy thể hiện đữ liệu bằng biểu đồ lá cây. 











Riskfactor Coef SE 
Lumbar spine BMD 0.25 0.08 
Femoral neck BMD 0.17 007 
'Whole body BMD. 0.22 0.08 
Radius area. 0.04 0.068 
Radius trab vBMD. 0.19 007 
Radius Cort Area -007 006 
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Tibia Trab vðMD. -0.15 
Tibia Cort Area -0.15 
Tibia Cort vBMD. 0.006 
Tibia pSSI 0.20 


0.08 
0.06 
0.06 
0.08 


Đáp: Chúng ta triển khai trong R như sau (và tính khoảng tin cậy 95%): 


Parameter = c(*Lumbar spine BMD”, *Femoral neck BMD”, 
*Ñhole body aBMD”, *Radius Area”, *Radius Trab vBMD”, 


*Radius Cort Area”, "Radius Cort vBMD”, 


*Tibia Trab Area”, *Tibia pSSI“) 


Coef = c(0.25, 0.17, 0.22, 0.04, 0.19, 


~0.15, 0.006, 0.20) 


Se = c(0.08, 0.07, 0.08, 0.068, 0.07, 
0.066, 0.08) 


Lower = Coef-1.96*$e 
Upper = Coef+1.96*Se 


# Đưa vào một data [rame: 


0.07, ~0.15, 


*Radius pSSI”, 


0.06, 0.08, 0.06, 


dat = data.frame(Parameter, Coef, Lower, 


# Xác định thứ tự: 


dat§Parameter = factor (dat$Parameter, 
unique (đat§Parameter) ) 


# Tạo ra một theme riêng: 


mytheme <- function(base size = 12, base family = *sans”) ( 


theme minimal(base size = base size, base family = base_ 


family) + 
theme ( 
axis.text = element text(size = 12), 


axis.title = element _text(size = 


Upper) 


levels = 


14), 


panel.grid.major = element line (color 


panel.grid.minor = element_blank (), 


panel.background = element_rect (fill 


strip.background = element_rect (fi11 


color = *grey”, size = 1), 


= "grey"), 


éa1iceblue”)„ 


"đarkgrey”, 
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strip.text = element text (face = *bold“, size = 12, 
color = "white”), 


legend.position = "none”, 

1egend.justification = *top”, 

panel.border = element_rect (color = *grey”, fill = 
NA, size = 0.5) 


) 
} 


# Soạn biểu đồ lá cây. 


g = ggplot(data=dat, aes(x=Parameter, y=Coef, 
ymin=Lower, ymax=Upper, color=Parameter)) 


g = g † geom pointrange (1wd=0.8) 
g =g + geom hline(yintercept = 0, 1ty=2) + coord flip() 
g=g + xlab(«») + ylab(«Regression Coeffient and 95%CI») 


g + mytheme () 


Tibia pSSI = 


Tibia Trab Area 
Radius pSSI 
Radius Cort vBMD. 


‹ 
" 














Radius Cort Area 
Radius Trab vBMD. 
Radjus Area 
'Whole body aBMD 
Femoral neck BMD 


Lumbar spine BMD. 














-0.2 00 02 04 
Regression Coeffient and 95%CI 
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@® Phân tích mô tả biến liên tục 





luật phân bố chuẩn (Normal distribution), có 3 chỉ số để mô tả: số cỡ 

mẫu, số trung bình và độ lệch chuẩn (không phải sai số chuẩn). Nếu 
biến số không tuân theo luật phân phối chuẩn, nền trình bày số trung vị và bách 
phân vị 25% và 75% (tức là interquartile range). Để hiểu qui ước này, chúng ta 
cần phải tìm hiểu ý nghĩa của độ lệch chuẩn và sai số chuẩn. Tôi thấy điểu này 
cẩn thiết, bởi vì hầu hết sách giáo khoa thống kê (ngay cả sách giáo khoa do 
người Tây phương viết) đều không giải thích rõ những khác biệt về ý nghĩa của 
hai chỉ số thống kê này. 


]Ð ối với các biến liên tục (như độ tuổi, chiểu cao, cân nặng, v.v.) tuân theo. 


Tại sao chúng ta cẩn độ lệch chuẩn? Để trả lời câu hỏi này, chúng ta thử xem. 
qua ví dụ sau đây: 


Ví dụ 1. Một biến số phản ảnh tình trạng của một bệnh trong hai nhóm. 
bệnh nhân (nhóm A gồm 6 bệnh nhân, và nhóm B gồm 4 bệnh nhân) như sau: 
Nhóm A: 6, 7, 8, 4, 5, 6 
Nhóm B: 10, 2, 3, 9 
Có thể dễ dàng thấy rằng số trung bình của nhóm A là 6, bằng với số trung 
bình của nhóm B. Tuy có cùng số trung bình, chúng ta khó có thể kết luận hai 
nhóm này tương đương nhau, bởi vì độ khác biệt trong nhóm B cao hơn trong 
nhóm A. Thật vậy, độ khác biệt giữa số lớn nhất và số nhỏ nhất trong nhóm B 
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là 8 (tức 10 trừ cho 2) gấp hai lần so với nhóm A với độ khác biệt là 4 (lấy 8 trừ 
cho 4). 

Chúng ta cẩn một chỉ số để phản ảnh sự khác biệt giữa các bệnh nhân (hay 
nói theo thuật ngữ là biến thiên). Cách làm hiển nhiên nhất là lấy kết quả của 
từng bệnh nhân trừ cho số trung bình và cộng chung lại. Gọi chỉ số này là D, và 
để phân biệt hai nhóm A và B, chúng ta dùng kí hiệu dưới dòng (subscript): 

Nhóm A: D,= (6-6) + (7-6) + (8-6) + (4-6) + (5-6) + (6-6) =0 
Nhóm B: D,= (10-6) + (2-6) + (3-6) + (9-6) =0 

Như thấy trên, vấn để ở đây là tổng số khác biệt của D là 0. Như vậy D vẫn 
chưa phản ảnh được độ biến thiên mà chúng ta muốn. Một cách làm cho D có 
“hồn” hơn là chúng ta lấy bình phương của từng cá nhân và cộng số bình phương 
lại với nhau. Gọi chỉ số mới này là D, chúng ta có: 

Nhóm A: Ð} = (6-6)2 + (7-6)2 + (8-6)2 + (4-6)2 + (5-6)2 + (6-6)2 = 10 

Nhóm B: Ø‡ = (10-6)2 + (2-6)2 + (3-6)2 + (9-6)2 = 50 

Bây giờ thì D? rõ ràng cho thấy nhóm B có độ biến thiên cao hơn nhóm A. 
Nhưng còn một vấn để, vì D° là tổng số, tức là chịu ảnh hưởng số cỡ mẫu trong 
từng nhóm. Một cách điều chỉnh hợp lí nhất là chia D° cho số cỡ mẫu. Gọi chỉ 
số mới này là S?, chúng ta có: 

Nhóm A:  S?=10/6=167 
NhómB: 53 =50/4=12.5 


Nhưng để khách quan hơn nữa, chúng ta còn phải điều chỉnh cho số thông 
số sử dụng trong tính toán. Chú ý rằng khi tính D hay D°, chúng ta trừ kết quả 
mỗi bệnh nhân cho số trung bình (tức là tốn một thông số). Vì thế, thay vì chia 
D” cho số cỡ mẫu, chúng ta phải chia cho số cỡ mẫu trừ 1. Gọi chỉ số mới nhất 
là s?, chúng ta có: 


l v10 
NhómA:  %4=c 1=? 
>_ 530 
. 2=——=l67 
Nhóm B: ˆ 4-1 


Chỉ số s° ở đây chính là phương sai. 


Nhưng còn một vấn để nhỏ: bởi vì đơn vị phương sai là bình phương, khác 
với đơn vị của số trung bình. Vì thế, cách hoán chuyển tốt nhất là chuyển giá trị 
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của phương sai sao cho có cùng đơn vị với số trung bình bằng cách lấy căn số bậc 
hai, và đây chính là độ lệch chuẩn (kí hiệu s). 

NhómA:  s,=V2=l4l 

Nhóm B: s; =V16.7 =4.08 

Đến đây, chúng ta có thể thấy nhóm B có độ biến thiên cao hơn nhóm A. 
Một cách để định lượng hóa độ lệch chuẩn tương quan với số trung bình là lấy 
độ lệch chuẩn chia cho số trung bình (và nếu cẩn, nhân cho 100). Kết quả của 
tỉnh toán này có tên là hệ số biến thiên (coefficient of variation - CV): 

Nhóm A: CV, = 1.41 /6 x 100 = 23.5% 
Nhóm B: CV, = 4.08 / 6 x 100 = 68.3%. 

Lợi thế của hệ số biến thiên là nó cho chúng ta một phép so sánh các biến. 
số không có cùng đơn vị. Chẳng hạn như chúng ta có thể so sánh độ biến thiên 
của áp suất máu và độ cholesterol trong một quần thể, vì hệ số biến thiên có cùng 
đơn vị phần trăm. Đến đây, chúng ta có thể tóm lược sự phân phối của hai nhóm 
bệnh nhân bằng bảng sau đây: 





Hệ số biến thiên 
23.5%. 





68.39 








Mô tả sự biến thiên của số trung bình: sai số chuẩn 


Các sách giáo khoa thống kê thường mô tả cách tính sai số chuẩn trong 
phần mở đầu, nhưng không giải thích nó có nghĩa là gì và tại sao phải cẩn đến 
chỉ số thống kê này. Công thức tính sai số chuẩn (kí hiệu bằng SE - viết tắt từ 
standard error) rất đơn giản: lấy độ lệch chuẩn chia cho căn số bậc hai của số cỡ 
mẫu (n): 





Áp dụng công thức trên cho ví dụ, SE của nhóm A và B lần lượt là: 
=141//6=0.58 
.08/ v4 =2.04 


Tại sao chúng ta cần tính SE ? Xin nhắc lại nguyên lí và mục đích đằng sau 
của thống kê học là ước tính những thông số của một quần thể (population). 


Nhóm A: — $E, 
NhómB: — SE, 
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Trong thực tế chúng ta không biết các thông số này, mà chỉ dựa vào những ước 
tính từ một hay nhiều mẫu để suy luận cho giá trị của quần thể mà các mẫu được 
chọn. Chẳng hạn như chúng ta không biết chiều cao của người Việt là bao nhiêu 
(bởi vì đâu có ai đo lường chiểu cao của 82 triệu dân); chúng ta phải chọn một 
mẫu gồm ¡0 đối tượng để tính trị số trung bình của mẫu này, và dùng trị số trung 
bình của mẫu để suy luận cho toàn dân số. 

Nhưng chọn mẫu phải ngẫu nhiên thì mới mang tính đại diện cao. Cứ mỗi 
lần chọn mẫu, chúng ta có một nhóm đối tượng khác. Và, cứ mỗi mẫu, chúng ta 
có một số trung bình mới. Câu hỏi đặt ra là: nếu chọn mẫu nhiều lần (“nhiều” ở 
đây có nghĩa là hàng triệu hay tỉ lần) thì các số trung bình này đao động cỡ nào. 

Ví dụ 2. Hãy lấy một ví dụ cụ thể (nhưng đơn giản) để minh họa cho ý tưởng 
vừa trình bày. Giả sử chúng ta có một quần thể chỉ 10 người, và chiều cao tính 
bằng cm của 10 người này là: 

Quần thể: 130, 189, 200, 156, 154, 160, 162, 170, 145, 140 


Như vậy chiểu cao trung bình của quần thể (chúng ta biết) là 160.6 cm. Gọi 
chỉ số này là „ = 160.6 cm. 


Bây giờ, giả sử chúng ta không có điểu kiện và tài lực để đo chiều cao của 
toàn bộ quẩn thể, mà chỉ có khả năng lấy mẫu 5 người từ quần thể này để ước 
tính chiểu cao. Chúng ta có thể lấy nhiều mẫu ngẫu nhiên, mỗi lần 5 người: 

Lần thứ 1: 140, 160, 200, 140, 145 
Lần thứ 2: 154, 170, 162, 160, 162 
Lần thứ 3: 145, 140, 156, 140, 156 
Lần thứ 4: 140, 170, 162, 170, 145 
Lần thứ 5: 156, 156, 170, 189, 170 
Lần thứ 6: 130, 170, 170, 170, 170 
Lần thứ 7: 156, 154, 145, 154, 189 
Lần thứ 8: 200, 154, 140, 170, 170 
Lần thứ 9: 140, 170, 145, 162, 160 
Lần thứ 10: 200, 200, 162, 170, 162 Xi, = 178.8 





Chú ý trong dãy trên, các số x,„ x,„ x.„ ... là số trung bình cho mỗi mẫu được 
chọn. Chúng ta thấy cứ mỗi lần chọn mẫu, số trung bình chiều cao ước tính khác 
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nhau, và biến thiên từ 147.4 cm đến 178.8 cm. Các số trung bình này dao động 
chung quanh số trung bình của quần thể (tức là 160.6 cm). 


Nếu chúng ta chọn mẫu N lần (mỗi lần với ø đối tượng), thì chúng ta sẽ có 
Nsố trung bình. Độ lệch chuẩn của N số trung bình này chính là sai số chuẩn. 
(Nên nhớ N ở đây là hàng triệu hay tỉ lần). Do đó, sai số chuẩn phản ảnh độ dao. 
động hay biến thiên của các số trung bình mẫu (sample averages). 

Một số sách giáo khoa thống kê dùng danh từ “Standard error of the mean” 
(SEM), nhưng đây là một cách dùng từ sai. Như tôi vừa trình bày trên, không có 
cái gọi là “standard error of the mean”, mà chỉ là séandard deviation oƒ the means 
(chú ý chữ “means” số nhiều vì tính từ nhiều số trung bình). Thay vì gọi standard 
đeviation of the means (quá dài dòng), người ta gọi ngắn gọn bằng một thuật 
ngữ mới: standard error. 





Ý nghĩa của độ lệch chuẩn và sai số chuẩn 

Gọi thông số trung bình của một quần thể là (nên nhớ rằng chúng ta 
không biết giá trị của #). Gọi ước số trung bình tính từ mẫu là x và độ lệch 
chuẩn là s. Theo lí thuyết xác suất của phân phối chuẩn, chúng ta có thể phát 
biểu rằng: 

» 68% cá nhân trong quần thể đó có giá trị từ X — s đến # + s; 

+ 95% cá nhân trong quần thể đó có giá trị từ # — 1.96xs đến X +1.96xs ; 

«99% cá nhân trong quần thể đó có giá trị từ X — 3xs đến x +3xs. 


Ngoài ra, gọi sai số chuẩn là SE, chúng ta còn có thể phát biểu rằng: 





® 68% số trung bình tính từ mẫu có giá trị từ x — SE đến x + SE; 





® 959% số trung bình tính từ mẫu có giá trị từ ý — 1.96xSE đến X +1.96xSE; 
— 3xSE đến x +3xSE. 





® 99% số trung bình tính từ mẫu có giá trị 


Qua trình bày trên, chúng ta thấy rõ ràng độ lệch chuẩn phản ảnh độ biến 
thiên của một số cá nhân trong một quần thể. Còn sai số chuẩn phản ảnh độ dao. 
động của các số trung bình chọn từ quần thể. 

Ví dụ 3. Chẳng hạn như khi nói trọng lượng trung bình của một nhóm bệnh 
nhân là 55 kg với độ lệch chuẩn 8.2 kg, thì câu nói này có nghĩa rằng nếu ta chọn 
[một cách ngẫu nhiên] một bệnh nhân từ quần thể, thì xác suất 95% là bệnh nhân 
này sẽ có trọng lượng từ 55—1.96x8.2 = 39 kg đến 55+1.96x8.2 = 71 kg. Giá trị 39 
kg đến 71 kg được gọi là khoảng tin cậy 95% (95% confiđence interval). 
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Trong trường hợp khoảng tin cậy 95% hàm chứa giá trị âm thì sao? Chúng 
ta biết rằng chiểu cao không thể có giá trị âm! Vì thế, nếu khoảng tin cậy 95% 
hàm chứa giá trị âm thì điểu này cho chúng ta biết rằng hoặc là (a) phân phối 
của biến số không tuân theo luật phân phối chuẩn, và các số trung bình, độ lệch 
chuẩn, hay phương sai không còn ý nghĩa thực tế nữa, hoặc (b) cách chọn mẫu 
có vấn để. Đây là một để tài thú vị mà tôi sẽ trở lại trong một bài khác. 

Về ý nghĩa của sai số chuẩn, chúng ta quay lại với Ví dụ 2. Giả sử chúng ta 
không biết giá trị thật của số trung bình cho toàn quần thể, mà chỉ dựa vào mẫu 
thứ nhất để ước tính. Lần chọn mẫu thứ nhất là: 140, 160, 200, 140, 145 và: 

Số trung bình của mẫu: # = 157.0 em 

Độ lệch chuẩn: s = 25.4 cm 

Sai số chuẩn: SE = 25.4/ V5 = 11.36 cm 


Như vậy, theo lí thuyết xác suất, chúng ta có thể nói rằng xác suất 95% là 
số trung bình của toàn quần thể dao động từ 157—1.96x11.36 = 135 cm đến 
157+1.96x11.36 = 179 em. (Trong thực tế, chúng ta biết rằng số trung bình của 
toàn quần thể là 160.6 cm). 

Cần phải nói ngay rằng không một biến số lâm sàng nào có thể được mô. 
tả chỉ bằng một ước số. Để có một "bức tranh” chung về một biến số lâm sàng, 
chúng ta nên sử dụng ba ước số chính: số cỡ mẫu, số trung bình, và độ lệch 
chuẩn. Sai số chuẩn không cung cấp thông tin về độ biến thiên của một quần 
thể, cho nên ước số này không nên sử dụng cho việc mô tả một chỉ số lâm sàng. 

Nhưng trong thực tế, vì hiểu sai hay nhập nhằng về độ lệch chuẩn và sai số 
chuẩn nên các bài báo y học được trình bày thiếu thống nhất. Lúc thì các tác giả 
trình bày độ lệch chuẩn, lại có khi cung cấp sai số chuẩn. Đây không phải là vấn 
để gian lận khoa học, mà chỉ đơn giản là thiếu hiểu biết. Chính vì thế mà ban 
biên tập các tập san y học quốc tế ra chỉ dẫn khuyến cáo tác giả chỉ nên trình bày 
độ lệch chuẩn kèm theo số trung bình và cỡ mẫu. 

Bởi vì mẫu số của sai số chuẩn là số cỡ mẫu, cho nên sai số chuẩn thường, 
thấp hơn độ lệch chuẩn. Chính vì thế mà có khi tác giả có lẽ ngại trình bày độ 
lệch chuẩn quá cao (ngại người bình duyệt chất vấn và có thể bài báo bị từ chối) 
nên họ cố tình trình bày bằng độ lệch chuẩn mà không ghi chú thích! Tình trạng, 
nhập nhẳng này mới là gian lận khoa học - nhưng là một gian lận ở trình độ 
thấp. 





.~*+* 
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Câu hỏi 6.1 Mô tả biến liên tục. Trong một nghiên cứu về loãng xương 
trên hơn 1000 phụ nữ Việt Nam, các nhà nghiên cứu thu thập số liệu về cân 
nặng của các đối tượng nghiên cứu. Dưới đây là bảng số liệu về cân nặng 
(tính bằng kg) của 100 phụ nữ Việt Nam được chọn ngẫu nhiên ở nhóm tuổi 
từ 32- 79 tuổi. Hãy tóm tắt dữ liệu dưới dạng thống kê mô tả. 

45.0 38.0 57.0 49.5 57.0 42.0 54.0 54.0 34.0 45.0 
42.0 49.0 27.0 57.0 50.0 61.0 49.5 48.0 54.0 49.0 
48.5 58.0 52.0 40.0 49.0 59.0 50.0 50.0 47.0 50.0 
47,0 45.0 48.0 49.0 50.0 53.0 48,5 53.0 43,0 49,0 
53,0 52.0 49.0 50.0 50.0 43.0 60.0 55.0 57.0 58.0 
48,0 52.0 50.0 45.0 56.0 53.0 57.0 47,0 51.0 60.0 
30.0 35.0 50.0 60.0 42.0 40.0 62.0 54.5 38.0 41.0 
47.0 38.5 59.0 69.0 59.0 44.0 66.0 57.0 44.0 50.0 
42.0 45.0 44.0 55.0 59.0 53.0 42.0 53.0 47.0 47.0 
58,0 55.0 41.0 49.5 49.0 38.0 58.0 58.0 39.5 42.8 








Đáp. Các số liệu này có thể tóm tắt lại dưới dạng trị số trưng bình và độ lệch 
chuẩn số học. Trung bình cân nặng của 100 phụ nữ này là * = 49.5 kg, và phương 
sai của mẫu là 56.3 kg. Dựa trên phương sai, chúng ta có thể tính độ lệch chuẩn 


s= 563 =7.5 kg. 


Trung vị của cân nặng là 49.8 kg, con số này không khác biệt với trung bình 
là mấy. Ngoài ra, chúng ta thấy 25% số phụ nữ có cân nặng thấp hơn hoặc bằng 
45 kg, và 75% số phụ nữ có cân nặng thấp hơn hoặc bằng 55 kg. Mức độ khác 
biệt giữa hai khoảng 25 và 75 bách phân vị này được gọi là khoảng-tứ phân vị 
(interquartile range). (Nếu không có máy tính, chúng ta có thể ước lượng được 
độ lệch chuẩn bằng công thức SD = khoảng-tứ phân vị/1.35. Ở đây, SD ước lượng 
= (55 - 45) / 1.35 = 7.4 kg, rõ ràng, rất sát với số liệu thực). 





Chúng ta cũng có thể ước lượng khoảng tin cậy của phân bố số liệu. Chẳng 
hạn, 95% phụ nữ có cân nặng nằm trong khoảng X + 2s. Trong trường hợp này, 
khoảng tin cậy 95% là: 49.5 + 2x7.5 = 49.5 + 15 kg. Nói cách khác, dựa trên các 
trị số trung bình và độ lệch chuẩn ước lượng, chúng ta có thể ước đoán rằng 959%, 
phụ nữ có cân nặng nằm trong khoảng từ 34.5 kg đến 64.5 kg. Ước lượng thống 
kê này rất gần với phân bố thực của số liệu. 

Phương sai (s°) và độ lệch chuẩn (s) là những số đo mức độ thay đổi của cân 
nặng của bất kỳ một cá thể nào trong nhóm số liệu. Lấy một ví dụ có n giá trị số đo 
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cân nặng, phương sai của trung bình mẫu được tính bằng s”/n (vì trung bình mẫu 
được tính từ m giá trị của từng cá thể), và độ lệch chuẩn của trung bình mẫu là: 
\$°/n =s/jn. Trị số này được gọi là độ lệch chuẩn của trị số trung bình, hay thông 
dụng hơn, gọi là sai số chuẩn (standard error). Trong trường hợp này, n = 100, 
và vì vậy sai số chuẩn (SE): SE = 7.5 / v00 = 0.75 kg. Khoảng tin cậy 95% dao 
động quanh trị số trung bình là: 49.5 + 2x0.75 = 49.5 + 1.5 kg. Điều này có nghĩa 
rằng nếu chúng ta lấy vô số các nhóm mẫu các phụ nữ trong quần thể, mỗi nhóm 
mẫu gồm 100 người, thì 953% các nhóm mẫu này sẽ có frị số trưng bình cân nặng 
nằm trong khoảng từ 48 kg đến 51 kg. 








Các tính toán trên có thể triển khai bằng R như sau: 
# định nghĩa biến và nhập đữ liệu 


weight = c(45.0, 38.0, 57.0, 49.5, 57.0, 42.0, 54.0, 54.0, 
34.0, 45,0, 


42.0, 49.0, 27.0, 57.0, 50.0, 61.0, 49.5, 48.0, 54.0, 49.0, 
48.5, 58.0, 52.0, 40.0, 49.0, 59.0, 50.0, 50.0, 47.0, 50.0, 
47.0, 45.0, 48.0, 49.0, 50.0, 53.0, 48.5, 53.0, 43.0, 49.0, 
53.0, 52.0, 49.0, 50.0, 50.0, 43.0, 60.0, 55.0, 57.0, 58.0, 
48.0, 52.0, 50.0, 45.0, 56.0, 53.0, 57.0, 47.0, 51.0, 60.0, 
30.0, 35.0, 50.0, 60.0, 42.0, 40.0, 62.0, 54.5, 38.0, 41.0, 
47.0, 38.5, 59.0, 69.0, 59.0, 44.0, 66.0, 57.0, 44.0, 50.0, 
42.0, 45.0, 44.0, 55.0, 59.0, 53.0, 42.0, 53.0, 47.0, 47.0, 
58.0, 55.0, 41.0, 49.5, 49.0, 38.0, 58.0, 58.0, 39.5, 42.8) 


Dùng chương trình psych để tính toán 
1ibrary (psych) 
> describe(weight, skew=F) 
vars n mean sd median trimmed mad min max range se 
1 1 100 49.59 7.51 49.75 49.82 7.41 27 69 42 0.75 
# vẽ biểu đồ phân bố 
hist(weight, col=“blue”, border=”white”, 
main=“Distribution of weight”, xlab=”Weight“) 
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Distribution of weight 


30 +0 so 60 70 


Frequency. 
1 25 30 


10 


Weight 


Chúng ta cũng có thể dùng hàm shapi ro. test để kiểm định giả thuyết 
rằng phân bố của weight tuân theo luật phân bố chuẩn. Phương pháp kiểm định 
này có tên là Shapiro-Wilk test. 


> shapiro.test (weight) 
Shapiro-Wilk normality test 


data: weight 

W = 0.98717, p-value = 0.4492 

Kết quả trên cho thấy trị số P = 0.45, tức cao hơn 0.05 và chúng ta có bằng 
chứng để phát biểu rằng biến weight tuân theo luật phân bố chuẩn. 





Một cách để biết phân bố của weight có phù hợp với luật phân bố chuẩn là 
dùng hàm qanozm và qq1 ine để vẽ phân bố của weight. Biểu đồ dưới đây cho 
thấy giá trị quan sát của weight (các điểm trên biểu đồ) rất gần với giá trị kì vọng 
của luật phân bố chuẩn (đường màu đỏ), nên chúng ta có thể nói rằng phân bố 
của weight phù lợp với luật phân bố chuẩn. 

qanorm (weight) 


qqline(weight, col = 2) 


107 
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'Normal Q-Q Plot 





60 


Sample Quantiles 
s 











T T T T T 
ˆ) 3 Ù ' 2 


Theoretical Quantiles 





Câu hỏi 6.2 Khoảng tin cậy 95% của biến liên tục. Trong dữ liệu 
“bone) hãy tính khoảng tin cậy 95% cho biến mật độ xương ở cổ xương đùi 
(£nbmd). 











Đáp: Giá trị trung bình và độ lệch chuẩn của biến £nbmd có thể tính như. 
sau (qua package psych): 
1ibrary (psych) 


describe (fnbmd, range=F, skew=F 


> describe(fnbmd, range=F, skew=F) 
vars n mean sử se 

1 1 550 0.7 0.14 0.01 

Giá trị trung bình là 0.7 và độ lệch chuẩn là 0.14. Dựa vào giả định phân bố 
chuẩn, chúng ta có thể ước tính rằng 95% các đối tượng nghiên cứu có £nbmdl 
trong khoảng 0.42 đến 0.97 g/cm°: 

0.7 - 0.14*1.96 = 0.42 

đến 

0.7 + 0.14*1.96 = 0.97 
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Câu hỏi 6.3 Khoảng tin cậy 95% của số trung bình. Trong dữ liệu 
“bone) hãy tính khoảng tin cậy 95% cho giá trị trung bình của mật độ xương, 
ở cổ xương đùi (£nbmd). 











Đáp: Có thể dùng phân bố t để ước tính khoảng tin cậy 95% qua hàm 
+, test như sau: 
>_t,test (£nbmd) 


đata: £nbmd 

t = 117.0629, df = 549, p-value < 2.2e-l6 

alternative hypothesis: true mean is not equal to 0 

95 percent confidence interval: 

0.6837420 0.7070798 

sample estimates: 

mean o£ x 

0.6954109 

Nói cách khác, nếu nghiên cứu được lặp lại nhiều lần, chúng ta kì vọng rằng. 
giá trị trung bình của mẫu (sample means) của mật độ xương sẽ dao động trong 
khoảng 0.68 đến 0.71 g/cm” (trung bình là 0.695). 





Câu hỏi 6.4 Mô tả biến số không tuân theo luật phân bố chuẩn. Trong 
dữ liệu “bone) giá trị trung bình và độ lệch chuẩn (SD) của leptin là 12.8 
(SD 11.7). Nếu tính khoảng tin cậy 95% thì sẽ đao động từ số âm đến dương 
(-10.1 đến 35.7), và điểu này vô lí. Hãy ước tính khoảng tin cậy 95% cho hợp 
lí hơn. 











Đáp: Phân bố của biến leptin trong nghiên cứu này không tuân theo luật 
phân bố chuẩn như có thể thấy trong biểu đồ đưới đây. Do đó, việc dùng lí thuyết 
của phân bố chuẩn để tính khoảng tin cậy 95% cho leptin là không hợp lí. 


Frequency 
40 80 140 
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Biểu đổ phân bố của leptin được vẽ qua hàm: 
hist(leptin, breaks=20, col=”blue”, main=””) 
Một cách đơn giản nhất là dùng bách phân vị: 
quantile(leptin, c(0.025, 0.5, 0.975)) 


> quantile(leptin, c(0.025, 0.5, 0.975)) 
2.5% 50% 97.5% 
0.63175 9.84000 44.65650 


Trung vị là 9.8 và bách phân vị 2.5% đến 97.5% đao động trong khoảng 0.63 
đến 44.6. 





Câu hỏi 6.5 Trong vấn để trên, hãy ước tính khoảng tin cậy 95% của giá 
trị trung bình leptin. 











Đáp: Vì leptin không tuân theo luật phân bố chuẩn, nên chúng ta cần dùng. 
phương pháp bootstrap (package boot) để tính khoảng tin cậy 95% cho giá trị 
trung bình của leptin như sau: 

1ibrary (boot) 


Bmean <- function(data, indices) ( 

đ <- data[indices] # allows boot to select sample 
return (mean (3) ) 
} 


results = boot (data=bone$leptin, statistic=Bmean, 
R=1000) 


results 


boot.ci(results, type=c(*norm“, "basic”, *perc”, "bca”)) 


Kết quả là: 
Bootstrap Statistics : 

original bias  std. error 
t1* 12.78749 0.008443218  0.5269339 
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Tntervals : 


Level Normal Basic 
95% (11:75, 13.81 } (11.76, 13.78 } 
Level Percentile BCa 

95% (11.79, 13.82) (11.83, 13.91 ) 


Calculations and Intervals on Original Scale 


Kết quả cho thấy giá trị trung bình của leptin là 12.8 và khoảng tin cậy 959%. 
của trung bình mẫu dao động trong khoảng 11.8 đến 13.8. 





Câu hỏi 6.6 Mô tả các số liệu không phải là phân phối chuẩn. T4 là 
một loại nội tiết tố tuyến giáp. Dãy số liệu sau đây là nồng độ T4 (mcg/dL) 
đo được trên 20 bệnh nhân. Hãy tính trung bình và các số đo thể hiện mức 
độ biến đổi của dữ liệu. 

171 257 288 295 396 397 431 435 554 568 

795 902 958 1004 1104 1212 1283 1378 1621 2415 











Đáp: Hấu hết các số liệu sinh hoá không phải là loại phân phối chuẩn. Nó 
thường lệch trái hoặc lệch phải so với đường cong phân phối chuẩn. Do vậy trị 
số trung bình và độ lệch chuẩn (SD) đôi khi cũng cho chúng ta biết được về mức 
lệch (skewness) đó. Ví dụ, trong một bộ dữ liệu, trung bình và độ lệch chuẩn 
là 823.2 ng/L và 566.4 ng/L, theo trình tự. Trung vị là: 681 ng/L, cho thấy khác 
nhiều so với trị số trung bình. Ở đây, khoảng tin cậy 95% của phân bố này là: 
823.2 + 2x566.4 = -309.6 đến 1956 ng/L. Tuy nhiên, về mặt sinh học thì nồng độ 
T4 không bao giờ là một số âm cả. Vì thế, giới hạn thấp của khoảng tin cậy trên 
ám chỉ rằng số liệu bị lệch sang trái. Thực tế, chúng ta có thể ước lượng được hệ 
số lệch là: 

sk> 3(X~ median) 
B 

Trong trường hợp này: SK = 3(823.2 - 681)/566 = 0.75. Vì thế, việc tính toán 
trị số trung bình và độ lệch chuẩn dựa trên các số liệu đo đạc gốc này gần như 
không có ý nghĩa gì nhiều vì loại số liệu có phân phối không chuẩn. 

Đối với các biến không tuân theo luật phân phối chuẩn chúng ta cẩn phải 
chuyển dạng số liệu trước khi tính toán bất kỳ một thống kê mô tả nào. Các 
loại số liệu sinh học như T4 thường có kiểu phân bố dạng cấp số và dùng cách 
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chuyển dạng bằng logarit áp dụng để “chuẩn hoá” phân bố của số liệu gốc. Các 
giá trị T4 được logarit hoá (logT4) lúc này biểu thị như sau: 

5.14 5.55 5.66 5.69 5.98 5.98 6.07 6.08 6.32 6.34 

6.68 6.80 6.86 6.91 7.00 7.10 7.16 7.23 7.39 7.79 


Trị số trung bình và độ lệch chuẩn của logT4 là 6.49 và 0.71. Độ lệch chuẩn 
lúc này có giá trị thấp hơn nhiều so với trị số trung bình, và khoảng tin cậy 95% 
là: 6.49 + 2x0.71 = 5.07 đến 7.91. Để chuyển dạng các ố này trở lại đơn vị 
nguyên mẫu của số liệu ban đấu, chúng ta cẩn phải dùng phép toán ngược với 
logarit là dùng hàm mũ, nghĩa là exp(5.07) = 159.2 ng/L và exp(7.91) = 2724 
ng/L. 





Dùng R: 
T4 = c(171, 257, 288, 295, 396, 397, 431, 435, 554, 568, 
T95, 902, 958, 1004, 1104, 1212, 1283, 1378, 1621, 2415) 


log.T4 = log(T4) 
mean (1og.T4) 


> 1ibrary (psych) 
> describe(log.T4, skew=F) 
vars nmean sd median trimmed mad min max range se 
1 1 20 6.49 0.71 6.51 6.49 0.78 5.14 7.79 2.65 0.16 





Câu hỏi 6.7 Mô tả nhiều tỉ lệ và hoán chuyển. Một cuộc thi, mỗi thí 
sinh phải trả lời 100 câu hỏi. Mỗi câu hỏi có câu trả lời đúng hoặc sai. Do đó, 
nếu thí sinh đúng 3 câu thì tỉ lệ đúng là 0.03 (3%). Bảng sau đây cho thấy tỉ 
lệ đúng cho 10 thí sinh: 

0.05, 0.15, 0.25, 0.86, 0.89, 0.17, 0.21, 0.37, 

0.30, và 0.07 


Hỏi: Tính trung bình và độ lệch chuẩn của các tỉ lệ. 











Đáp: Số trung bình của dữ liệu trên là 0.332 và độ lệch chuẩn (SD) là 0.302. 
Nhưng chúng ta thấy SD cao cũng như trung bình, và hiện tượng này còn gọi là 
heteroscedasticity. Trong trường hợp này, chúng ta cần phải hoán chuyển dữ liệu 
sang đơn vị arcsin để giảm heteroscedasticity. Gọi y =arcsin vjp , trong đó p là 
tỉ lệ, chúng ta có: 
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p = {0.05, 0.15, 0.25, 0.86, 0.89, 0.17, 0.21, 0.37, 0.30, 0.07} 

+ = {0.225, 0.398, 0.523, 1.187, 1.232, 0.424, 0.476, 0.654, 0.580, 0.268} 
Từ y, chúng ta có thể ước tính trung bình là 0.597 và SD 0.348. 

Dùng R: 


P=c(0.05, 0.15, 0.25, 0.86, 0.89, 0.17, 0.21, 0.37, 
0.30, 0.07) 


y = asin (sqrt (p)) 


1ibrary (psych) 
describe(y, skew=F) 


> describe(y, skew=F) 
vars n mean sd median trimmed mad mỉn max range se 
1 1 10 0.6 0.35 0.5 0.56 0.19 0.23 1.23 1.01 0.11 





Câu hỏi 6.8 Mô tả nhiều tỉ lệ và hoán chuyển. Số liệu về chỉ số đau 
(pain index) ở 11 bệnh nhân thấp khớp như sau: 0.05, 0.15, 0.35, 
0.25, 0.20, 0.05, 0.10, 0.05, 0.30, 0.05, và0.25. Số 
trung bình của 11 bệnh nhân là 0.163 và độ lệch chuẩn 0.112. Biến số không 
tuân theo luật phân bố chuẩn. Hãy ước tính trung vị và khoảng tin cậy 95% 
của trung vị. 











Đáp: Chúng ta có thể ước tính trung vị để dàng, nhưng không có công 
thức để ước tính khoảng tin cậy 95%. Do đó, chúng ta phải dùng phương pháp 
bootstrap để giải đáp câu hỏi. 

# Nhập các số liệu gốc vào một vector có tên là pain 


pi = €(0.05,0.15, 0.35, 0.25, 0.20, 0.05, 0.10, 0.05, 0. 30, 0.05 
,0.25) 


# Bước 2 ~ xác định xem có bao nhiêu số liệu trong vector pi 
n = length(pi) 
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G. là 


O7) Phân tích mô tả biến phân loại 





tẩm quan trọng của một bệnh trong một quần thể hay cho một cá nhân. 

Sự phổ biến của các chỉ số này còn tùy thuộc vào mức độ chuyên sâu 
và tỉnh vi của nghiên cứu, nhưng ở mức đơn giản nhất, có 3 chỉ số quan trọng 
như sau: 


T rong nghiên cứu khoa học, có khá nhiều chỉ số để đánh giá qui mô và 


« Tisố 
« TiIệ 
« Tỉ suất 


Đặc điểm chung của các chỉ số này là chúng đểu là phân số. Điểu này có 
nghĩa là mỗi chỉ số đều có tử số và mẫu số. Những khác biệt về ý nghĩa giữa các 
chỉ số này chính là phần mẫu số. Trong phần sau đây, tôi sẽ giải thích cụ thể từng 
chỉ số. 


Tỉ số (ratio) 

Tỉ số là một phân số mà phần tử số có thể không có liên hệ gì với mẫu số. Tỉ 
số có giá trị từ 0 đến vô hạn (0 -> e), 

Ví dụ 1: Chẳng hạn như trong một quần thể gồm có 193 người (95 nam 
và 98 nữ), chúng ta hay viết mô tả tình trạng này bằng tỉ số giới tính (sex ratio) 





nam : nữ như 95/ 98 = 0.97. Tỉ số nam : nữ bằng 0.97 có nghĩa là cứ 100 nữ thì có 
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97 nam. Chỉ số này cho chúng ta biết rằng nam ít hơn nữ (vì nếu hai giới bằng 
nhau thì tỉ số phải bằng 1). 

Các chỉ số khác như tỉ trọng khối cơ thể (body mass index hay BMI) hay 
mật độ xương (bone mineral density) cũng là một dạng của tỉ số. Các đo lường 
quan trọng trong dịch tễ học như risk ratio, odds ratio, hazards ratio, v.v... cũng 
là những tỉ số. 

Tỉ lệ (proportion) 

Tỉ lệ là một dạng tỉ số, nhưng cấu trúc của tỉ lệ khác với tỉ số ở phần tử số. 
Trong tỉ số, tử số có thể khác đơn vị đo lường với mẫu số (như trường hợp BMI), 
nhưng với tỉ lệ thì tử số và mẫu số phải cùng đơn vị đo lường. Tử số của một tỉ lệ 
nằm trong mẫu số. Nói cách khác, tử số của một tỉ lệ lúc nào cũng thấp hơn hay 
bằng mẫu số. Tỉ lệ có thể nhân cho 100 để thành số phần trăm (percent). Chính 
vì thế mà giá trị của tỉ lệ chỉ dao động từ 0 đến 1 (hay nếu diễn tả bằng phần trăm 
thì dao động từ 0 đến 100%). 

Ví dụ 2: Trong đợt dịch tả bộc phát hồi tháng 3 vừa qua, tính đến ngày 
13/4/2008 có 2490 người mắc bệnh tiêu chảy cấp tính, trong số này có 377 người 
nhiễm vi khuẩn tả V. cholerae. Do đó, tỉ lệ nhiễm khuẩn tả trong quần thể những 
người tiêu chảy cấp tính là 377 / 2490 = 0.151 hay 15.1%. 

Qua cách tính trên, chúng ta dễ dàng thấy rằng tỉ lệ thực chất là một xác 
suất. Trong ví dụ trên, chúng ta cũng có thể diễn giải rằng xác suất người bị tiêu 
chảy cấp tính nhiễm khuẩn tả là 0.15 (tức trong số 100 người tiêu chảy cấp tính, 
chúng ta kì vọng có khoảng 15 người bị nhiễm vi khuẩn tả). 

Tỉ lệ là một danh từ chung. Trong dịch tế học, tỉ lệ lưu hành (prevalence) 
chính là một dạng của tỉ lệ. Tỉ lệ lưu hành, như tên gọi, là tỉ lệ ca bệnh hiện lưu 
hành trong một quần thể. Cách tính tỉ lệ này rất đơn giản: lấy số ca người mắc 
bệnh trong một quần thể chia cho tổng dân số trong quần thể đó. Tỉ lệ lưu hành 
phản ảnh qui mồ của một vấn để y tế, nhưng không cho chúng ta biết về bệnh 
căn học (etiology). 

'Ví dụ 3: Năm 2001, trong một điểu tra dịch tế học tại Thành phố Hồ Chí Minh 
trên 2932 đối tượng, các nhà nghiên cứu phát hiện 111 người mắc bệnh tiểu 
đường. Do đó, tỉ lệ lưu hành bệnh tiểu đường là 111 / 2932 = 0.038 hay 3.8%. 

Cần phải phân biệt hai loại tỉ lệ lưu hành: tỉ lệ lưu hành tại một thời điểm. 
(point prevalence) và tỉ lệ lưu hành tích lũy (cumulative prevalence). Để hiểu 
hai chỉ số này, chúng ta có thể xem qua ví dụ 4 sau đây. 
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Ví dụ 4: Một quần thể gồm có 5 đối tượng. Đối tượng 1, 3 và 5 mắc bệnh; đối 
tượng 2 và 4 không mắc bệnh. Biểu đồ thanh (màu xanh) mô tả thời gian mắc 
bệnh của từng đối tượng (xem biểu đồ dưới đây). 


:. mm 








Tị T; T,  Thờigian 


Nếu chúng ta tiến hành điểu tra vào thời điểm T,, có 2 bệnh nhân trong số 5 
đối tượng, và do đó, tỉ lệ lưu hành là 2/5 = 0.4 hay 40%. Nếu chúng ta tiến hành 
điểu tra vào thời điểm T,, có 3 bệnh nhân trong số 5 đối tượng, và tỉ lệ lưu hành 
là 3/5 = 0.6 hay 60%. Đây là tỉ lệ lưu hành tại một thời điểm. 

Nhưng nếu chúng ta tính từ thời điểm T, đến T, thì trong số 5 đối tượng 
trong quần thể này, có tất cả 3 người mắc bệnh, và do đó tỉ lệ lưu hành tích lũy 
trong thời gian này là 60%. 


Tỉ suất (rate) 


Tỉ suất cũng là một dạng của tỉ số hay tỉ lệ. Tuy nhiên, trong dịch tễ học, tỉ 
suất có một khác biệt quan trọng với tỉ lệ là: mẫu số của tỉ suất có thể bao gồm 
yếu tố thời gian và số đối tượng. Tử số của tỉ suất chỉ là số ca mắc bệnh. Do đó, 
giá trị của tỉ suất có thể đi từ 0 đến vô hạn. 

Ví dụ 5: Chúng ta theo dõi 10 bệnh nhân từ năm 1989 đến ngày 31/12/2001. 
Trong thời gian này chúng ta ghỉ nhận 3 người mắc bệnh tả, kết quả từng bệnh 
nhân như sau: 
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- Ngày tham gia = Thời gian theo dõi, 
Bệnh nhân nghiên cứu _. Ngày bị bệnh tả ¡ tính đến ngày khóa 
sổ 31/12/2001 (năm). 
1 12/1/1989. 12495 
2 14/08/1990 21/03/1998 761 
3 27/03/1989 1277 
4 01/02/1989 17/03/1999. 10.13 
5 07/09/1989 1232 
6 21/11/1989 1212 
7 02/12/1990 01/05/1992 141 
8 07/04/1989 1274 
9 08/01/1990 1199 
10 30/07/1989. 1243 
Tổng cộng 106.49 




















Bệnh nhân 1 được theo dõi từ ngày 12/1/1989 đến 31/12/2001, tức 12.95 
năm, và không bị bệnh tả. Bệnh nhân thứ 2 có thời gian theo dõi là 7.61 năm, 
tính từ 14/8/1990 đến 21/3/1998 khi bị bệnh. v.v... Như để cập trên, chúng ta 
quan sát 3 ca bệnh tả. Đó là tử số. 


Còn mẫu số? Tổng cộng thời gian theo dõi của 10 bệnh nhân là 106.49 năm. 
Nhưng nên nhớ là chúng ta theo đõi 10 người, cho nên đơn vị phải là năm- 
người hay nói theo thuật ngữ tiếng Anh là person-years. Tổng thời gian theo đõi 
là 106.49 năm-người hay person-years. 


Tỉ suất mắc bệnh tả, do đó, được tính bằng cách lấy số ca bệnh chia cho số 
năm-người. Cụ thể hơn: 3 / 105.49 = 0.0282. Nói cách khác, tỉ suất mắc bệnh là 
2.82% năm-người. Con số này còn có thể điển giải một cách khác nữa, nhưng tôi 
sẽ để dành cho bạn đọc suy nghĩ! 


Thật ra, tỉ suất qua cách tính vừa mô tả cũng chính tỉ suất phát sinh (hay 
incidence rate). Ngoài ra, trong dịch tế học, một chỉ số có liên quan mật thiết 
đến tỉ suất phát sinh là tỉ lệ phát sinh (incidence). Chú ý rằng tỉ lệ phát sinh còn 
đôi khi được để cập đến như là tỉ lệ tấn công (attack rate). Trong ví dụ trên, 
chúng ta có 10 bệnh nhân, và qua theo đõi trung bình 10.65 năm (lấy 106.49 
chia cho 10), có 3 ca mắc bệnh tả. Do đó, tỉ lệ phát sinh trong vòng 10.65 năm là: 
3 / 10 = 0.30 hay 30%. 

Trong y văn, 2 thuật ngữ này (¿ỉ suất phát sinh và tỉ lệ phát sinh) thỉnh thoảng 
vẫn được sử dụng qua lại mà không phân biệt mẫu số. Tỉ suất phát sinh hay tỉ lệ 
phát sinh có thể ước tính cho hai nhóm và so sánh cho ra tỉ số nguy cơ (relative 
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risk). Do đó, tỉ suất có giá trị khoa học là cung cấp cho chúng ta một vài thông 
tin về bệnh căn học. 









































Tỉ số Tiiệ Tỉ suất 
Đặc tính (ratio) (proportion) (rate) 
Toán học Phân số Phân số Phân số 
Tử số và mẫu số Không hẳn phải có _ | Phải có cùng đơn vị _ | Không hẳn phải có 
cùng đơn vị cùng đơn vị 
Tử số (trong văn cảnh | Có thể bất cứ số nào _ | Số ca bệnh. Số ca bệnh 
dịch tế học) 
Mẫu số (trong văn Có thể bất cứ số nào _ | Tổng số đối tượng. Tổng số người-thời 
cảnh dịch tễ học) trong quần thể gian (“thời gian" có. 
thể là năm, tháng, 
VAV,..) 
Giới hạn của giá trị _ | Từ0 đến vô hạn Từ 0 đến 1 (hay 100) _ | Từ0 đến vô hạn. 
Chỉ số dịch tễ học Tỉ số giới tính, BMI, Tỉ lệ lưu hành. Tỉ lệ phát sinh 
mật độ xương, mật (prevalence), kể cả tỉ _| (incidence), tỉ lệ tấn 
độ dân số, v.v... lệ lưu hành tích lũy | công (attack rate), 
hay một thời điểm tỉ suất phát sinh 
(incidence rate), v.... 
Ý nghĩa Đơn thuần mô tả Qui mô của bệnh Mối liên hệ giữa yếu 
tố nguy cơ và bệnh 
(bệnh căn học) 





Ngoài các chỉ số trên, còn một số chỉ số khác cũng phản ảnh qui mô bệnh 
tật như lifetime risk (nguy cơ mắc bệnh trọn đời), hazards rate (tỉ suất nguy cơ), 
v.v... cũng có khi sử dụng trong các nghiên cứu dịch tế học thuộc dạng phân 
tích. Ngoài ra, các chỉ số mang tính đo lường khác [tôi chưa biết dịch sang tiếng 
Việt là gì] như attributable risk fraction, etiologic fraction, potential years of life 
lost, v.v... cũng có khi sử dụng cho các công trình dịch tể học mang tính phân 
tích. Tuy nhiên, cách tính các chỉ số này cũng phức tạp, và đôi khi đòi hỏi phải 
có phần mềm máy tính mới thực hiện được. 


Cố nhiên, trên đây chỉ là các chỉ số cực kì đơn giản trong dịch tế học. Các 
chỉ số này chỉ là số trung bình, chưa phản ảnh độ dao động mẫu (sampling 
variation). Cách tính độ dao động mẫu có phần tương đối phức tạp hơn nhưng 
đó là một để tài cho chương này. 


.. 
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Câu hỏi 7.1 Mô tả một tỉ lệ. Trong chương trình Nghiên cứu Dịch tế 
Loãng xương Dubbo (DOES), các nhà nghiên cứu đo mật độ chất khoáng 
trong xương (bone mineral đensity (BMD, sẽ viết là BMD) trên 821 phụ nữ 
tuổi từ 60 trở lên ở thời điểm năm 1989. Trong mẫu này, 90 người có số đo. 
BMD thấp. Hãy ước lượng tẩn suất lưu hành (prevalence) và khoảng tin cậy của. 
số người có BMD thấp. 











Đáp: Có thể giả định rằng tỉ lệ của người có BMD thấp tuân theo luật phân 
phối nhị thức (binomial distribution). Theo luật phân phối này, thì tẩn suất lưu 
hành của những người có BMD thấp (kí hiệu là p) có thể để dàng ước lượng là 
bằng tổng số người có BMD thấp chia cho tổng số người nghiên cứu. 

Trong trường hợp này thì: p = 90 / 821 = 0.11 (hay 11%). Phương sai của 
tần suất lưu hành: war(p) = p(1 ~ p)/n = (0.11 x 0.89) /821 = 000012. Và vì thế 
độ lệch chuẩn của tẩn suất lưu hành SD sẽ là: Íp(I —p)/n= X0.00012 = 0.011. 
Khoảng tin cậy 95% của tẩn suất lưu hành đao động trong khoảng p + 2*SD, sẽ 
là: 0.11=2(0.011)= 0.088 và 0.11+2(0.011)= 0.132 (tức là từ 8.8% đến 13.2%). 


Có thể tính toán bằng R qua hàm bảncon£ trong package rms: 
require (rms) 


binconf (x=90, n=821, method=“all”) 


> binconf(x=90, n=821, method=”all”) 


PointEst Lower Upper 
Exact 0.1096224 0.08907516 0.1330194 
Wilson 0.1096224 0.09004250 0.1328385 


Asymptotic 0.1096224 0.08825198 0.1309928 


Kết quả phân tích theo phương pháp chính xác cho thấy khoảng tin cậy 95% 
của tỉ lệ dao động từ 8.9 đến 13.3%. 





Câu hỏi 7.2 Ước tính khoảng tin cậy 95% chính xác. Số liệu sau đây 
phản ảnh số người mắc bệnh tiểu đường cho từng độ tuổi. Hãy tính tỉ lệ hiện 
hành và khoảng tin cậy 95% bằng phương pháp Bayes. 
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2 
3 


5 


HS, and Rubin DB (1997). 


Độ tuổi 
30-39 
40-49 
50-59 
60-69 
70+ 


Cỡ mẫu. 
52 
86 
136 
62 
30 


Số ca tiểu đường 


15 
34 
62 
28 
17 


Đáp: Chúng ta có thể dùng hàm binom.bayes trong chương trình 
bi nom để tính khoảng tin cậy 95% cho mỗi độ tuổi như sau: 
86, 136, 
62, 28, 17) 


N=c(5 
dđiab = 


2, 


c( 


15, 34, 


1ibrary (binom) 


62, 30) 


binom.bayes (x=diab, n=N) 

Kết quả như sau: 

> binom.bayes (x=diab, n=N) 
method x n shapel shape2 mean 
bayes 15 52 15.5 37.5 0.2924528 
bayes 34 86 34.5 52.5 0.3965517 
bayes 62 136 62.5 74.5 0.4562044 
bayes 28 62 28.5 34.5 0.4523810 
bayes 17 30 17.5 13.5 0.5645161 


0. 


0. 


0. 


0. 


0 


lower 
1744104 
2953254 
3734170 


3313013 


„3929690 


Chúng ta có thể đưa vào bảng số liệu trên: 


Độ tuổi 
30-39 
40-49 
50-59 
60-69 

70+ 


Cỡ mẫu 
52 
86 
136 
62 
30 


0. 


0. 


0. 


0. 


0 


upper 
4148484 
4990981 
5393478 


5742949 


„7338080 


0. 


0. 


0. 


0. 


0 


sig 
05000000 
05000001 
05000000 
04999999 


„04999999 


Số ca tiểu đường _ Ti lệ và khoảng tin cậy 95%, 
29.2 (17.4-41.5) 
39.7 (29.5 - 50.0) 
45.6 (37.3 - 53.9) 
45.2 (33.1 - 57.4) 
56.5 (39.2 - 73.3) 


15 
34 
s2 
28 
17 


Chú thích: Cách tính khoảng tin cậy 95% cho tỉ lệ bằng phương pháp Bayes 
có thể tham khảo sách Bayesian Data Analysis của Gelman A, Carlin JB, Stern 
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Câu hỏi 7.3 Tỉ lệ mới phát sinh (incidence). Một nhóm phụ nữ tuổi từ 
60 trở lên được theo đõi xem có bị gãy xương hay không trong khoảng thời 
gian từ 1989 cho đến 31/12/2001. Trong suốt thời gian theo dõi này, người ta 
thấy có 3 phụ nữ trong số đó bị gây xương. Thời điểm tham gia nghiên cứu. 
của mỗi đối tượng và thời điểm gãy xương được trình bày trong bảng số liệu 
đưới đây. Tính tỉ lệ mới phát sinh và khoảng tin cậy 95% của tỉ lệ này. 















































Mã số bệnh nhân | Ngày bắt đầu thamgia | Ngày bị gãy xương 
H 12/1/1989) 
12 14/08/1990 21/03/1998 
13 27/03/1989 
14 01/02/1989. 17/03/1999 
15 07/09/1989. 
16 21/11/1989 
17 02/12/1990, 01/05/1992 
18 07/04/1989. 
19 08/01/1990. 
20 30/07/1989 














Đáp: Để tính được tỉ lệ mới phát sinh, chúng ta cần phải tính được tổng thời 
gian theo dõi cho từng người. Đối với những bệnh nhân bị gãy xương thì thời 
gian theo đõi chỉ tính từ thời điểm bắt đầu tham gia nghiên cứu cho đến thời 
điểm gãy xương mà thôi, đối với những người không bị gãy xương thì thời gian 
theo dõi được tính từ ngày bắt đầu tham gia chương trình nghiên cứu cho đến 
ngày kết thúc nghiên cứu (ở đây là 31/12/2001). Thời gian theo đõi cho từng đối 
tượng ở trên tính được ra như sau: 


Bệnh nhân Thời gian theo dõi (năm) 


11 12.95 
12 7,61 

13 1277 
14 10.13 
15 12.32 
16 12.12 
17 141 
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18 1274 


19 11.99 
20 12.43 
Total 106.49 


Tổng thời gian theo dõi cho 10 đối tượng trên đây là 106.49 năm-người. Có. 
tất cả 3 trường hợp gãy xương trong khoảng thời gian đó. Vì vậy, fi lệ mới phát 
sinh gãy xương trong nhóm nghiên cứu này là: ï = (3 / 106.46) = 0.0282, hay 
2.82/100 năm-người. 

Để tính toán được khoảng tin cậy (CL) 95% cho tỉ lệ mới phát sinh, chúng. 
ta cẩn giả định rằng £ lệ gãy xương tuân theo luật phân phối Poisson (áp dụng 
cho bệnh hiếm gặp). Theo phân phối Poisson thì phương sai sẽ bằng trị số trung 
bình, ở đây là tỉ lệ mới phát sinh. Và vì thế, sai số chuẩn của tỉ lệ mới phát sinh I: 
SE(I)=x/N, với x là tổng số ca gãy xương và N là tổng số thời gian “năm- 
người” Trong trường hợp này, S£(7)= \3 /106.49 = 0.016 hay 1.6 mỗi 100 năm- 
người. Khoảng tin cậy 95% CI cho I được ước lượng bằng I + 1.96(SE), tức là 2.82 
+ 1.96(1.6) = -0.3 đến 5.96 cho mỗi 100 năm-người. 





Và rõ ràng khoảng tin cậy (C1) trên đây là có vấn để, và chẳng có ý nghĩa gì 
cả, vì tỉ lệ mới phát sinh không thể có trị số âm! Do đó chúng ta cần dùng một 
phương pháp khác để tính sao cho CI phải là một số dương. Sai số chuẩn của ï 
cần phải được ước lượng gián tiếp bằng cách chuyển dạng logarit. Một khi tỉ lệ I 
được ước lượng từ x biến cố (tức là gãy xương) trên tổng số N năm-người, sai số 
chuẩn của log(I) là: SE = j1/ x . Trong trường hợp này, SE = J1/3 = 0.58. Khoảng 
tin cậy 95% của I sẽ là từ I/exp(1.96s) đến Ixexp(1.96s). Trong bài toán cụ thể 
trên đây 95%CI từ: 0.0282/exp(1.96x0.58) = 0.009 đến 0.0282xexp(1.96x0.58) = 
0.087. Nói cách khác, khoảng tin cậy 95% của tỉ lệ mới phát sinh gãy xương có thể 
biến đổi trong khoảng từ 0.9 đến 8.7 mỗi 100 năm-người. 

Nhận xét: Khi một tỉ lệ mới phát sinh không ổn định, thì cần phải thận 
trọng trong việc diễn dịch kết quả. Tức là khi tỉ lệ này tính được chỉ dựa trên 
một vài trường hợp mắc bệnh (cụ thể trong trường hợp này là số ca gây xương), 
thì gần như khó mà phân định được những kết quả thu được đó là do thay đổi 
ngẫu nhiên đưa đến hay là do những biến đổi thực sự xảy ra trên nền nguy cơ 
mắc bệnh. Vì vậy các so sánh tiến hành dựa theo thời gian hoặc giữa các cộng. 
đồng dựa trên những tỉ lệ không ổn định như thể có thể đưa đến những kết luận 
không chính xác về sự khác biệt mà có thể có giá trị hoặc không có giá trị gì cả. 
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Điểu này đặc biệt có vấn để khi đem áp dụng cho những cộng đồng có số dân 
tương đối ít. 





Câu hỏi 7.4 Phân bố Poisson. Trong một cuộc điều tra theo dõi số người 
mắc bệnh dịch hạch ở Tây Nguyên, số người mắc bệnh trong tháng 4 của một 
tỉnh qua quan sát 5 năm như sau: 


36, 38, 29, 41, 31 








Tính khoảng tin cậy 95% của số ca trung bình trong tháng 4. 





Đáp: Gọi số ca trung bình là C, chúng ta có thể ước tính € đơn giản qua 
công thức: 

€ = (86 +38 + 29 + 41 + 31) /5=35 

Từ đó, KTC95% có thể tính như sau (dựa vào giả định phân phối Poisson): 


Ezts6x LÊ szisex ƑE 
" 5 


Chú ý, n là số năm theo dõi. Kết quả cho thấy KTC95% số ca dịch hạch trong 
tháng 4 có thể dao động từ 30 đến 40 ca qua nhiều năm. 








Câu hỏi 7.5 Phân bố Poisson. Trong nghiên cứu theo dõi 8197 người 
trong 3 năm, và trong thời gian đó, có 51 người nhiễm HIV. Tính khoảng tin 
cậy 95% cho số người bị nhiễm? 











Đáp: Có thể giả định số người bị nhiễm (rất nhỏ) tuân theo luật phân bố 
xác suất Poisson. Theo luật phân phối này thì nếu gọi số người bị nhiễm là C thì 
phương sai cũng có cùng giá trị C. Do đó, khoảng tin cậy 95% là: 

C#1.96xv€ 





Trong ví dụ trên, chúng ta có thể tính KTC95% cho số người bị nhiễm cho. 
từng nhóm như sau: 


511.96x51 = 37 đến 65 


Cần nói thêm rằng cách tính trên dựa vào lí thuyết phân phối chuẩn khi C 
“Nhiêu” ở đây có thể hiểu là từ 5 hay cao hơn. 





nhiề 
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Câu hỏi 7.6 Khoảng tin cậy đối với những biến cố chưa xuất hiện. Một 
thử nghiệm lâm sàng theo dõi một nhóm 90 bệnh nhân trong vòng 3 năm, 
và không thấy một trường hợp nào bị phản tác dụng của thuốc. Hãy tính 
khoảng tin cậy cho tỉ lệ mới phát sinh của các trường hợp bị phản tác dụng 
của thuốc? 











Đáp: Trong trường hợp này, khoảng tin cậy không thể tính được, bởi vì 
trong suốt thời gian theo đõi không có một trường hợp nào bị phản tác dụng 
của thuốc. Nói cách khác, tử số của tỉ lệ này là 0, và không thể dựa vào luật phân 
phối chuẩn hay Poisson để tính được các giới hạn của khoảng tin cậy. Tuy nhiên, 
về mặt lí luận thì rõ ràng giới hạn thấp của khoảng tin cậy hẳn phải là bằng zero. 
Nhưng phần trên của khoảng tin cậy 95%? Bằng cách sử dụng phương pháp xấp 
xỉ phân bố nhị thức, chúng ta có thể ước lượng được giới hạn trên của khoảng tin 
cậy, Giới hạn trên của 95% CI được ước lượng là 3/(n + 1), với n là cỡ mẫu. Điều 
này có nghĩa là trong trường hợp của ví dụ này giới hạn trên của khoảng tin cậy 
95% của sự kiện bị phản tác dụng thuốc là 3/91 = 0.033 hay là 3.3%. Chúng ta 
cũng có thể ước lượng giới hạn trên của 99.9% CI bằng 7/(n + 1) = 7/91 = 7.79, 

Ghỉ chú: Hai hằng số 3 và 7 ở đây được áp dụng với mọi trường hợp và 
không phụ thuộc vào cỡ mẫu, vì theo phương trình phi tuyến tính để xác định 
chính xác giới hạn trên của khoảng tin cậy đối với một tỉ lệ, thì giá trị xấp xỉ gần 
đúng nhất cho ra là 3/(n+1) và 7/(n+1). 

Về cách tính khoảng tin cậy của một biến cố chưa xảy ra, có thể tham khảo. 
hai bài báo sau đây: 

Hanley JA, Lippman-Hand A. Ifnothing goes wrong, is everything all right? 
Interpreting zero numerators. JAMA 1983: 249(13); 1743-5. 


Eypasch E, Lefering R, Kum CK, Troidl H. Probability of adverse events that 
have not yet occurred: a statistical reminder. BMJ 1995: 311(7005); 619-20. 
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126 


..... 





VIÁuG. là. 


@® So sánh hai nhóm: biến liên tục 





hai nhóm độc lập với nhau. Chẳng hạn như so sánh mật độ xương ở nam 

và nữ, chúng ta có 2 giá trị trung bình (3¡, x;), 2 độ lệch chuẩn ( s‡, s7 ) 

và 2 cỡ mẫu (n,„ n,). Giả thuyết vô hiệu là H0: ,,= ¿„ và giả thuyết nghịch đảo là 

HI: „,# w„ Để kiểm định giả thuyết này, phương pháp kiểm định : (hay còn gọi 
là t-test, StudentS t-test) là phương pháp chuẩn. 

Phương pháp kiểm định f được xây dựng trên cơ sở của tỉ số tín hiệu và 


nhiễu. Tín hiệu ở đây là hiệu số của hai số trung bình mẫu đ = ị ~ x;, và nhiễu 
là độ lệch chuẩn của hiệu số đ. Nói cách khác: 


T rong nhiều tình huống, chúng ta muốn so sánh hai giá trị trung bình của 


_ Signal — x 
_ noiee  SD(~%;) 








Nếu giả thuyết vô hiệu H0 đúng thì giá trị của £ tuân theo luật phân bố í (t 
đistribution). Luật phân bố phụ thuộc vào khoảng tin cậy và bậc tự do. Chẳng 
hạn như nếu khoảng tin cậy là 95% (hai chiểu) và bậc tự đo là 10, thì trị số f theo 
lí thuyết là T = 2.086: 

> qt(.975, đf = 20) 

[1] 2.085963 

Nói cách khác, nếu giá trị £ > T; chúng ta có bằng chứng để kết luận rằng 
mức độ khác biệt có "ý nghĩa thống kế” 

2 — 
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Phân tích trên dựa trên 3 giả định chính. Thứ nhất là biến số phải tuân theo. 
luật phân bố chuẩn. Thứ hai là phương sai giữa hai nhóm không có khác nhau 
đáng kể. Thứ ba là các số liệu trong mỗi nhóm phải độc lập với nhau, hiểu theo 
nghĩa không có liên quan với nhau. Nếu số liệu mang tính thời gian, chẳng hạn 
như mỗi cá nhân được đo hơn 1 lẩn thì các giá trị của cá nhân đó không thể xem 
là độc lập. Nếu các giả định về phân bố chuẩn và phương sai không đáp ứng, thì 
chúng ta cần dùng đến phương pháp phi tham số (non-parametric method). 
Phương pháp phi tham số tương đương với phương pháp kiểm định r là Mann- 
'Whitney U test, hay Wilcoxon-Mann-Whitney test. Một phương pháp khác có 
thể thay thể Mann-Whitney U test là phương pháp tái chọn mẫu hay bootstrap. 


...* 





Câu hỏi 8.1 Kiểm định £ cho một tham số. Nhiệt độ bình thường của 
cơ thể được cho là 37°C (hay 98°6F). Nhưng con số này bị nghỉ ngờ là không 
đúng với thực tế. Một nghiên cứu đo nhiệt độ F và nhịp tim của 130 người 
bình thường tuổi 30-40 (xem dữ liệu *normtemp.csv“). Hãy kiểm định 
giả thuyết là nhiệt độ bình thường là 37°C. 











Đáp: Đây là vấn để kiểm định một mẫu (one-sample t-test). Chúng ta cần 
tính số trung bình x và độ lệch chuẩn s của nhiệt độ, và kiểm định với giả thuyết 
nhiệt độ thật là 37°C: 

x-37 
8 


f 





Chúng ta cần đọc đữ liệu vào R, và hoán chuyển sang đơn vị Celscius: 


> t = read.csv(*~/Dropbox/Q&A Book/Datasets/normtemp. 


csv”) 
> head(t) 
temp sex hr 
1 96.3 170 
2 96.7 1 71 
3 96.9174 
497.0 180 
5 97.1 173 
6 97.1 175 
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t§tempC = 5*(tậtemp-32) /9 


Sau đó, dùng hàm t.test như sau: 
t.test (t$tempC, mu=37) 


> t.test (t§tempC, mu=37) 
One Sample t-test 


data: t§tempC 

t = -5.4548, df = 129, p-value = 2.41le-07 

alternative hypothesis: true mean is not equal to 37 

95 percent confidence interval: 

36.73445 36.87581 

sample estimates: 

mean o£ x 

36.80513 

Kết quả phân tích trên cho thấy nhiệt độ trung bình là 36.8°C, và khoảng tin 
cậy 95% dao động từ 36°7 đến 36°9C. Như vậy giả thuyết nhiệt độ thật là 37°C có 
thể bác bỏ ở mức độ œ = 5%. 





Câu hỏi 8.2 Phân tích nghiên cứu trước-sau (before-after study). Số 
liệu sau đây phản ảnh độ creatinine (mn/min) của 6 bệnh nhân trước và 
sau khi được gây mê bởi thuốc halothane (Mazze et al, 1971). Kiểm định giả 
thuyết lượng creatine trước và sau phẫu thuật không khác nhau. 











Bệnh nhân Trước gây mê Sau gây mê 
1 110 149 
2 101 105 
3 61 162 
4 73 93 
5 143 143 
6 118 100 


Đáp: Đây là một nghiên cứu tiêu biểu ở đạng trước - sau. Mỗi bệnh nhân 
được đo 2 lần, và do đó số liệu của 2 lần không độc lập nhau. Điểu đó cũng có 
nghĩa là phương pháp kiểm định t bình thường không thể áp dụng. Chúng ta 
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cẩn ứng dụng phương pháp kiểm định giả thuyết cho 1 nhóm, có khi còn gọi là 
“paired t test” Trước hết, chúng ta tính mức độ khác biệt giữa trước và sau gây 


mê cho mỗi bệnh nhân: 
Bệnhnhân  Trướcgâymê Saugâymê  Sau-Trước 
1 110 149 39 
2 T01 105 4 
3 61 162 10 
4 73 93 20 
5 143 143 0 
6 118 100 -18 
Trung bình 243 
Độ lệch chuẩn 42.2 
Sai số chuẩn 172 


Số trung bình về khác biệt của 6 bệnh nhân là 24.3, với sai số chuẩn là 17.2. 
Do đó, t= 24.3 / 17.2 = 1.412. Nói cách khác, độ khác biệt chỉ 1.4 sai số chuẩn, 
và không có ý nghĩa thống kê. Có thể dùng R để tính trị số P và khoảng tin cậy 
95% như sau (chú ý trong hàm sau đây, chúng ta kiểm định giả thuyết số trung 
bình bằng 0 [mu = 0]): 

dif = c(39, 4, 101, 20, 0, -18) 

t.test(đif, mu=0) 

Với kết quả là khoảng tin cậy 95% đao động từ -20 đến 69, và trị số P = 0.22. 
Nói cách khác, sự khác biệt về creatinine trước sau gây mê không có ý nghĩa 
thống kê. 

> t.test(dif, mu=0) 


t = 1.412, df = 5, p-value = 0.217 
alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval: 
-19.96561 68.63228 
sample estimates: 
mean of x 
24.33333 


Một cách khác để dùng R cho paired t test là nhập dữ liệu cho 2 nhóm riêng 
lẻ, và dùng t.test (before, after, paired=T) : 
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before = c(110, 101, 61, 73, 143, 118) 
after = c(149, 105, 162, 93, 143, 100) 
t.test(after, before, paired=T) 


> t.test(after, before, paired=T) 


Paired t-test 


data: after and before 
t= 1.412, để = 5, p-value = 0.217 


alternative hypothesis: true difference in means is not 
equal to 0 


95 percent confidence interval: 

-19.96561 68.63228 

sample estimates: 

mean o£ the differences 
24.33333 





Câu hỏi 8.3 Kiểm định t cho hai nhóm độc lập. Trong nghiên cứu về 
xương (dữ liệu "bone”), kiểm định giả thuyết rằng nam có mật độ xương ở 
cổ xương đùi (fnbmd) cao hơn nữ. 











Đáp: Chúng ta cần phải xác định biến liên quan: £nbmd. là mật độ xương ở 
cổ xương đùi, và sex là giới tính. Giả định rằng £nbmd tuân theo luật phân bố 
chuẩn, chúng ta có thể dùng hàm +. cest trong R để trả lời câu hỏi trên: 

# Đọc đữ liệu vào R 

bone = read.csv(”~/Dropbox/Q&A Book/Datasets/bone đata. 

csv”) 

# Kiểm định giả thuyết 

t.test (bone$fnbmd ~ bone$sex) 

Kết quả là: 

data: fnbmd by sex 

t = -5.5248, df = 329.552, p-value = 6.707e-08 


alternative hypothesis: true đifference in means is not 
equal to 0 
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95 percent confidence interval: 
~0.09560814_~0.04540008 

sample estimates: 

mean in group F mean in group M 


0.6716959 0.7422000 


Giá trị trung bình của nữ là 0.67 và nam là 0.74. Do đó, mức khác biệt giữa 
hai nhóm là -0.07 (nữ có mật độ xương thấp hơn nam là 0.07 g/cm°). Khoảng tin 
cậy 95% của khác biệt là -0.09 đến -0.05. Nói cách khác, nếu nghiên cứu được 
lặp lại 100 lần, sẽ có 95 mẫu với nữ có mật độ xương trung bình thấp hơn nam 
từ 0.05 đến 0.09 g/cm". Trị số P < 0.0001, nên chúng ta kết luận rằng sự khác biệt 
này có ý nghĩa thống kê. 





Câu hỏi 8.4 Kiểm định t cho biến số không tuân theo luật phân bố 
chuẩn. Trong nghiên cứu về xương (dữ liệu "bone”), kiểm định giả thuyết 
rằng có sự khác biệt về chỉ số huỷ xương (xlaps) giữa nam và nữ. 











Đáp: Dùng hàm Desc trong Dese7oo1s, chúng ta có kết quả phân tích 
mô tả cho từng nhóm như sau. Rõ ràng, nữ có nồng độ x1aps thấp hơn nam: 
1ibrary (DescTools) 


Desc (bone§xlaps ~ bone$sex) 


F M 
mean 248.576 298.087 
median 225.100 258.400 


sd 143.440 178.863 
TIỌQR 184.000 211.100 
n 365 185 


Tuy nhiên, biểu đồ dưới đây cho thấy phân bố của z:1aps lệch, tức không 
tuân theo luật phân bố chuẩn. 
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Histogram of xlaps 


: Íl 
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xiaps 


Do đó, hàm t.test sẽ không áp dụng được trong trường hợp này. Thay vì 
dùng t.test, chúng ta sẽ dùng phương pháp bootstrap để kiểm tra giả thuyết về 
sự khác biệt giữa nam và nữ. Phương pháp bootstrap được tiến hành như sau: 


Bước 1: lấy mẫu có hoàn lại nhóm nam; tính trung bình và gọi là mm,; 
Bước 2: lấy mẫu có hoàn lại nhóm nữ; tính trung bình và gọi là m,; 
Bước 3: tính hiệu số đ = 0m, - m,; 

Bước 4: lặp lại bước 1-3 nhiều lần, có thể là 1000 lần; 

Bước 5: tính bách phân vị của d. 

Chúng ta triển khai các bước trên bằng R như sau: 

# trích biến xlaps thành 2 nhóm riêng 


men x]aps [sex==»M»] 





women = xlaps[sex==»F»] 
# tìm số đối tượng nam và nữ 
ni = length (men) 


n2 = length (women) 


# chúng ta sẽ lẫy mẫu 1000 lần 
N = 1000 
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# Tạo 3 biến trỗng: trung bình cho nam, nữ, và hiệu số 
m1 = numeric(N) 
m2 = numeric(N) 


đ = numeric(N) 


# Bắt đầu tính toán 
for (¡ in 1:N) 
{ 
bsl = sample(men, n1, replace=T) 


bs2 = sample(women, n2, replace=T) 


ml[i] = mean(bs1l) 
m2[i] = mean(bs2) 
d[i] = mean (bs1) -mean (bs2) 


quantile(d, probs=c(0.025, 0.50, 0.975)) 


> quantile(d, probs=c(0.025, 0.50, 0.975)) 
2.5% 50% 97,5% 
19.86367 49.89671 77.24163 


Kết quả này cho thấy nam có nồng độ xlaps cao hơn nữ (trung bình) là ~50 
ng/dL, nhưng khoảng tin cậy 95% dao động từ ~20 đến 77 ng/dL. Bởi vì phần 
dưới của khoảng tin cậy 95% cách xa 0, nên chúng ta có chứng cứ để kết luận 
rằng sự khác biệt có ý nghĩa thống kê. Chú ý rằng phương pháp bootstrap không 
cẩn đến trị số P vì đã cung cấp mức độ khác biệt giữa hai nhóm và quan trọng 
hơn là mức độ dao động của khác biệt này (cần chú ý là các test phi tham số chỉ 
cung cấp giá trị P mà không thể cung cấp các kết quả liên quan đến mức độ khác 
biệt). Cũng chú ý rằng vì chúng ta lấy mẫu ngẫu nhiên, nên mỗi lần thực hiện các 
lệnh phân tích trên sẽ cho kết quả có lẽ khác chút ít so với kết quả trên, nhưng sự 
khác biệt không quá lớn (vì mỗi lần thực hiện sẽ theo một trình tự ngẫu nhiên 
hơi khác nhau). Để có kết quả nhất quán, cần dùng hàm set. seed (63839) 
để sử dụng một trình tự ngẫu nhiên thống nhất (trong trường hợp này là 63839) 
trước khi thực hiện các lệnh phân tích trên. 
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Dùng simp1eboot : 


Các bước phân tích trên thật ra có thể thực hiện trong chương trình 
simpleboot. Hàm two.boot trong chương trình này cần hai biến số, một 
chỉ số phân tích (như mean, median, v.v.) và số lần lấy mẫu: 


1ibrary (simp1eboot) 


bmean = two.boot (bone$xlap [bone$sex=: 
bone$x1ap [bone$sex==”F”], FUN=mean, 








Lệnh trên có nghĩa là so sánh biến xlaps cho nam (điều kiện sex: 
cho nhóm nữ (sex == “F”), hàm phân tích là số trung bình, và lấy mẫu 1000 lần. 
Sau đó, tìm số trung bình khác biệt, và khoảng tin cậy 95%: 

> bmean§t0 

[1] 49.51132 


> boot.ci (bmean) 
BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS 
Based on 1000 bootstrap replicates 


Tntervals 
Level Normal Basic 
95% (20.08, 80.33 ) (19.90, 80.62 ) 


Level Percentile BCa 


95% (18.40, 79.13 ) (20.07, 80.70 ) 


Calculations and Intervals on Original Scale 


Kết quả trên đây cũng rất giống với kết quả dùng phân tích “thủ công” Cũng 
có thể vẽ phân bố mức độ khác biệt giữa 2 nhóm: 


hist(bmean, breaks=20) 
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Câu hỏi 8.5 So sánh bằng phương pháp bootstrap. Các nhà nghiên 
cứu đo lượng Na+ tiếp thu trong 2 nhóm bệnh nhân gồm 12 người bình 
thường và 10 người bị cao huyết áp (Schecter et al 1973). Kết quả như sau. 
Kiểm định giả thuyết rằng hai nhóm có lượng Na+ như nhau. 












































Bình thường |_ Caohuyếtáp 
10.2 928 
22 54.8 
00 S16 
26 617 
00 250.8 
43.1 845 
458 34.7 
636 622 
1.8 110 
00 39.1 
3.7 
0.0 
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Đáp: Giả định rằng hai nhóm bệnh nhân độc lập với nhau và được chọn. 
ngẫu nhiên từ hai quần thể, phương pháp kiểm định thống kê để trả lời câu hỏi 
trên là kiểm định t (hay còn gọi là t test). Trước hết, chúng ta nhập dữ liệu vào R: 


normal = c(10.2, 2.2, 0.0, 2.6, 0.0, 43.1, 45.8, 63.6, 
1.8, 0.0, 3.7, 0.0) 


hypertensive = c(92.8, 54.8, 51.6, 61.7, 250.8, 84.5, 

34.7, 62.2, 11.0, 39.1) 

Chúng ta cẩn xem qua phân bố của hai nhóm với hàm hi st () „ và biểu đồ 
cho thấy phân bố không tuân theo luật phân bố chuẩn. 


hist (c(normal, hypertensive), breaks=20, col=“blue”, 
border=“white”, main=”“, xlab=“Na+“) 


Frequency 


“lu ' 


180 200 250 


Nat 


Do đó, phương pháp kiểm định t thông thường không thể áp dụng. Một 
phương pháp có ích khác là bootstrap như đã giải thích trong câu hỏi trên. 
Chúng ta sẽ dùng phương pháp bootstrap trong sirap1eboot, nhưng chúng ta 
so sánh 2 trung vị (thay vì hai số trung bình): 

1ibrary (simp1leboot) 


bmed = two.boot (hypertensive, normal, FUN=median, 
R=1000) 


> bmed$t0 
[1] 55.85 
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> boot.ci (bmed) 

Tntervals : 

Level Normal Basic 
95$ (30.55, 83.80 ) (28.10, 83.55 ) 


Level Percentile BCa 


95% (28.15, 83.60 ) (33.72, 86.50 ) 


hist (bmed, breaks=20) 
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Kết quả trên cho thấy tính bằng chỉ số trung vị, nhóm hypertensive có nồng 


độ Na+ cao hơn nhóm normal là 55.9, nhưng khoảng tin cậy 95% có thể dao 
động trong khoảng 33.7 đến 86.5. Nói cách khác, sự khác biệt giữa hai nhóm có 
ý nghĩa thống kê. 








Câu hỏi 8.6 So sánh bằng phương pháp robust. Trong câu hỏi 8.5, 
chú ý trong dãy số liệu có một giá trị khá cao (250.8, thể là giá trị ngoại vi 
-- outlier). Với sự hiện diện của giá trị ngoại vi, các phương pháp kiểm định 
cổ điển (như t-test) không có giá trị tốt. Hãy kiểm định sự khác biệt giữa hai 
nhóm bằng phương pháp robust. 
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Đáp: Chúng ta nhập đữ liệu vào R: 


normal = c(10.2, 2.2, 0.0, 2.6, 0.0, 43.1, 45.8, 63.6, 
1.8, 0.0, 3.7, 0.0) 


hypertensive = c(92.8, 54.8, 51.6, 61.7, 250.8, 84.5, 
34.7, 62.2, 11.0, 39.1) 


# Tạo ra một vector dữ liệu và gọi là na. Tạo thêm một biến nhóm group: 

na = c(normal, hypertensive) 

group = rep(*Normal”, 12), rep(*Hypert”, 10) 

Một phương pháp robust để kiểm định giả thuyết trong điểu kiện số liệu 
ngoại vi do Yuen để xướng là dùng "trimmed mean” (Yuen KK, Biometrika 
1974;61:165-170). Về nguyên tắc phương pháp robust sử dụng tất cả các dữ liệu 
thu nhận được nhưng với trọng số khác nhau tùy vào mức độ dao động của dữ 
liệu. Phương pháp này được triển khai trong chương trình #&S2 như sau: 

1ibrary (WRS2) 

yuen (na ~ group) 


> yuen(na ~ group) 
Call: 
yuen (formula = na ~ group)} 


Test statistic: 3.85 (d£ = 10.4), p-value = 0.00299 


Trimmed mean difference: 51.03333 

95 percent confidence interval: 

21.6512 80.4155 

Kết quả cho thấy sự khác biệt giữa hai nhóm là 51.0, và khác biệt này có ý 
nghĩa thống kê (P = 0.003). Chú ý khoảng tin cậy 95% của sự khác biệt giữa 2 
nhóm đao động từ 21.6 đến 80.4, tức rộng hơn khoảng tin cậy 95% của phương 
pháp bootstrap. 
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..... 


@® Phân tích so sánh hai tỉ lệ 





liên tục qua kiểm định t (t-test). Đối với các biến số nhị phân (binary 

variable), phương pháp kiểm định t không thể ứng dụng, mà đòi hỏi 
một cách tiếp cận khác. Hai tham số để mô tả một biến nhị phân là tỉ lệ (hay xác 
suất) và phương sai. Do đó, nếu chúng ta muốn so sánh hai xác suất hay hai tỉ lệ, 
thì nguyên lí vẫn là tỉ số của tín hiệu trên nhiễu. Gọi p, và p, là hai tỉ lệ của hai 
nhóm độc lập, hiệu số đ = p,=p, thể hiện "tín hiệu” và phương sai của đ chính là 
“nhiễu” Tỉ số z = đ/ s (trong đó, s là độ lệch chuẩn của đ) là phương pháp kiểm 
định chính cho hai tỉ lệ. Phương pháp này được triển khai qua hàm prop.. test 
trong R. 


§ Chương 8, chúng ta đã xem qua phương pháp so sánh hai biến 


Trong thực tế, thay vì so sánh bằng hiệu số đ, chúng ta cũng có thể so 
sánh qua các chỉ số mang tính địch tế học như risk ratio (p, / p,) hay odds ratio 
(p,/(1=p,) + p,/ (1~p,)). Các phương pháp dựa vào tỉ số (thay vì hiệu số) có lợi 
điểm là dễ diễn giải, vì chẳng hạn như tỉ số của hai tỉ lệ là 1.56, chúng ta có thể 
nói 56% gia tăng, nhưng có khó khăn đáng kể là tính toán phương sai. Trong 
khoa học thống kê, tính toán phương sai của một hiệu số rất đễ so với tính toán 
phương sai của một tỉ số. Do đó, các phương pháp phân tích như tỉ số odds (odds 
ratio), tỉ số nguy cơ (risk ratio), hay tỉ số rủi ro (hazard ratio) đòi hỏi một cách 
tính phương sai gián tiếp. Chương này sẽ hướng dẫn cách tính đó qua các câu 
hỏi thực tế dưới đây. 
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Đối với hai biến phân loại, tức có hơn 2 giá trị phân nhóm, phương pháp để 
kiểm định sự độc lập giữa hai biến là Ki bình phương (Chi squared test). Thật ra, 
phương pháp z như trình bày trên cũng là một kiểm định nằm trong “gia đình” 
Kí bình phương. 


..# 





Câu hỏi 9.1 So sánh 2 tỉ lệ trong nghiên cứu cắt ngang (survey). Trong 
một nghiên cứu trên 700 phụ nữ Việt Nam, các nhà nghiên cứu phát hiện 
148 người bị loãng xương. Một nghiên cứu khác ở Úc cũng ở phụ nữ trên 
cùng độ tuổi (n = 1287) và có 345 người bị loãng xương. Hai tỉ lệ này thật sự 
khác nhau? 











Đáp: Tï lệ (hay xác suất) loãng xương ở nhóm phụ nữ Việt Nam là p, = 148 / 


700=0.211 (hay 21.1%), và độ lệch chuẩn là SÐ, = Jj0.211(1—0.211)/700 = 0.015. 


Còn đối với nhóm Úc, chúng ta có: p, = 345 / 1287 = 0.268 (hay 26.8%), và 


$D; = ,[0.268(1~268)/1287 = 0.012. Hiệu số mẫu của hai xác suất là: 


d=0.268 - 0.211 = 0.057 





Để kiểm định giả thuyết hai tỉ lệ bằng nhau, chúng ta cẩn phải tính độ lệch 
chuẩn của đ, và theo lí thuyết thống kê, bằng căn số bậc hai của tổng phương sai: 


SD(4)=\|SDỷ + sD‡ = (0.012) +(0.015)” = 0.02 


Kiểm định z có thể tính như sau: 
"1. 
SD(4)_ 002 





Như vậy, hiệu số của 2 xác suất cao gần gấp 3 lần độ lệch chuẩn. Theo phân 
bố chuẩn, z > 2.0 có trị số P = 0.05, do đó, chúng ta có thể đoán rằng z = 2.87 phải 
có trị số P < 0.05, chính xác (dùng R) là 0.004: 

2* (1-pnorm (2.87) ) 

Như vậy chúng ta có thể kết luận là tỉ lệ loãng xương giữa phụ nữ Úc và phụ 
nữ Việt Nam có khác biệt có ý nghĩa thống kê. Trong thực tế, với kết quả này, 
nhiều nhà nghiên cứu có thể kết luận rằng tỉ lệ loãng xương ở phụ nữ Úc cao 
hơn Việt Nam. 
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Dùng R: Các tính toán trên có thể thực hiện một cách “thủ công” với R, 
và dùng hàm prop.test. Nhưng trước hết, chúng ta phải nhập dữ liệu bằng hàm 
matrix gồm 2 dòng và 2 cột như sau: 

đata = matrix(c(148, 700-148, 345, 1287-345), nrow=2, 

byrow=T) 

Sau đó, dùng hàm prop.test : 

prop. test (data) 

Kết quả như chúng ta biết trước là tỉ lệ loãng xương ở nhóm phụ nữ Việt 
Nam là 21.1% và Úc là 26.8%. Khoảng tin cậy về độ khác biệt giữa 2 tỉ lệ dao 
động trong khoảng 1.7% đến 9.6% (lấy tỉ lệ Úc trừ cho Việt Nam), và trị số 
P= 0.006, tức sự khác biệt có ý nghĩa thống kê. 


> prop.test (data) 


X-squared = 7.4954, d£ = 1, p-value = 0.006186 
alternative hypothesis: tưo.sided 
95 percent confidence interval: 
~0.09647708_~0.01679631 
sample estimates: 
prop 1 prop 2 
0.2114286 0.2680653 





Câu hỏi 9.2 Prevalence ratio. Dùng số liệu của câu hỏi 1, và tính tỉ số 
hiện hành (prevalence ratio - PR). 


Việt Nam. Úc 
Loäng xương 148 345 
Không loäng xương. 552 942 
Tổng số 700. 1287 











Đáp: Vẫn dữ liệu trên, nhưng thay vì tính độ khác biệt giữa hai nhóm, chúng. 
ta có thể tính tỉ số của hai tỉ lệ. Trong dịch tễ học, tỉ số của hai tỉ lệ hiện hành 
được gọi là “prevalence ratio” (PR). Với số liệu trên, PR của nhóm Việt Nam so 
với Úc là: 
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Để tính khoảng tin cậy 95% của PR, chúng ta có thể dùng package epiR. 
Trước hết nhập dữ liệu dưới đạng ma trận 2x2: 


đata = matrix(c(148, 700-148, 345, 1285-345), nrow=2, 
byrow=T) 


rownames (data) = c(*VN”, *Australia”) 
coLnames (data) = c(*Osteo“, *Non-osteo”) 
# dùng package epiR 

1ibrary (epiR) 


epi.2by2 (data, method=“cross.sectiona1”) 





> epi.2by2 (data, method=”cross.sectional”) 


Disease + Disease - Total Prevalence * 
Exposed + 148 552 700 21.1 
Exposed ~ 345 940 1285 26.8 
Total 493 1492 1985 24.8 


Point estimates and 95 $ CIs: 





Prevalence ratio 0.79 (0.66, 0.93) 


0dds ratio 0.73 (0.58, 0.91) 


Kết quả cho thấy PR = 0.79 và khoảng tin cậy 95% dao động từ 0.66 đến 


0.93. 


Chú ý trong hàm trên, chúng ta cho epiR biết rằng đây là nghiên cứu cắt 


ngang (method=“cross.sectiona1”) để ước tính tỉ số hiện hành PR. 
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Câu hỏi 9.3 So sánh hai tỉ lệ phát sinh (incidence rates) trong 
nghiên cứu đoàn hệ. McQuinlland và đồng nghiệp (BMJ 1998) báo cáo 
một nghiên cứu về chất lượng chăm sóc bệnh nhân. Nghiên cứu gồm 2 
nhóm bệnh nhân: nhóm A gồm 20 bệnh nhân được quản lí chặt chẽ; nhóm. 
B gồm 54 bệnh nhân được đánh giá là được chăm sóc chưa đúng mức. Sau 
một thời gian theo đõi, nhóm A có 5 bệnh nhân tử vong, nhóm B có 26 tử 
vong. Dữ liệu cho phép tác giả kết luận về ảnh hưởng của chất lượng chăm 
sóc bệnh nhân đến nguy cơ tử vong? 











Đáp: Chúng ta có thể tóm lược kết quả bằng bảng số liệu 2 dòng và 2 cột 


như sau: 
NhómA Nhóm B 
Tử vong D) 26 
Sống sót 15 28 
Tổng số 20 54 


Một chỉ số có thể dùng để đánh giá mối liên quan giữa chất lượng chăm sóc. 
bệnh nhân và tử vong là tỉ số nguy cơ (risk ratio - RR). Trong vấn để trên, chúng 
ta có thể tính nguy cơ (risk) tử vong ở nhóm A: 


Rạ= -Š=025 
420 
và nhóm B: 
Rạ=22=048 
4 


Do đó, tỉ số nguy cơ (hay relative risk hay risk ratio) là: 





Chúng ta cần phải tính khoảng tin cậy 95% của RR. Nhưng để tính KTC95%, 
chúng ta cần biết sai số chuẩn (SE) của RR. Vì RR là một tỉ số, nên cách tính SE 
rất phức tạp, và chúng ta phải tính gián tiếp qua 4 bước như sau: 

Bước 1: Hoán chuyển RR sang logRR: 

logRR = log(0.519) = -0.655 
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Bước 2: Ước tính phương sai của logRR: 


15/5 28/26 
= + 


= =0.170 
5+lS5 26+28 








Do đó, sai số chuẩn (SE) của logRR là: 


$E =0.170 =0.412 
Bước 3: Tính KTC95% của logRR: 
-0.655 + 1.96x0.412 = -1.463 đến 0.231 
Bước 4: Tính KTC95% của RR: 
exp(-1.463) = 0.23 đến exp(0.231) = 1.16 

Kết quả trên cho thấy bệnh nhân nhóm A có nguy cơ tử vong thấp hơn. 
nhóm B (RR 0.519) với khoảng tin cậy 95% đao động từ 0.23 đến 1.16. Nói cách 
khác, dữ liệu cho phép chúng ta kết luận rằng chất lượng chăm sóc bệnh nhân 
không có liên quan đến giảm nguy cơ tử vong. 


Dùng R: Có thể dùng package epiR trong R để ước tính RR như sau: 
# nhập dữ liệu dưới dạng ma trận 2x2 

dat = matrix(c(5, 15, 26, 28), nrow=2, byrow=T) 
rownames (dat) = c(*Group A”, "Group B”) 

colnames (dat) = c(*Death”, *§urvivor”) 


# dùng package epiR 
1ibrary (epiR) 
epi.2by2 (dat, method=”cohort.count”) 


# Output là 
Point estimates and 95 $ CIs: 


Ine risk ratio 0.52 (0.23, 1.16 
Odds ratio 0.36 (0.09, 1.25) 
Attrib risk * -23.15 (-46.34, 
0.04) 
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Chú ý trong hàm trên, chúng ta cho epiR biết rằng đây là nghiên cứu đoàn 
hệ (“cohort.count”) để tính toán chính xác. 





Câu hỏi 9.4 So sánh 2 tỉ lệ phát sinh trong nghiên cứu lâm sàng đối 
chứng ngẫu nhiên (randomized controlled clinical trial). Tầm soát ung 
thư vú được khuyến cáo là một cách để giảm tử vong vì ung thư vú. Một 
nhóm nghiên cứu Thuy Điển kiểm tra giả thuyết đó bằng cách chọn một mẫu 
nghiên cứu với hơn 120000 phụ nữ và chia thành 2 nhóm: nhóm 1 được tầm 
soát bằng nhũ ảnh thường xuyên (screening), và nhóm 2 không can thiệp 
(no screening). Sau một thời gian theo dõi, kết quả về tử vong là như sau: 


Tổng số bệnh nhân Số tử vong 
Tấm soát 66103 183 
Không tầm soát 66105 177 


Nhóm tác giả kết luận rằng “$creening for breast cancer with 
mammography is unjustified” (không có cơ sở khoa học để tầm soát ung thư 
vú). Kết luận của nhóm tác giả có nhất quán với đữ liệu? 











Đáp: Tỉ lệ tử vong trong nhóm tầm soát là 0.277% (188/66103) và nhóm 
chứng là 0.268% (177/66105). Như vậy tầm soát ung thư vú thường xuyên tăng 
nguy cơ tử vong! Dùng cách phân tích như mô tả trong vấn để trên, và dùng R để 
ước tính các thông số, chúng ta có RR = 1.03 và KTC95% dao động từ 0.84 đến 
1.27. Nói cách khác, tẩm soát ung thư vú tăng nguy cơ tử vong khoảng 3% (tính 
trung bình), nhưng chương trình tẩm soát có thể giảm nguy cơ tử vong 16% 
hoặc tăng 27%. Do đó, nhóm tác giả đã kết luận đúng dựa vào dữ liệu. 


Dùng R: Có thể dùng epiR trong R để ước tính RR và khoảng tin cậy 95%: 
dat = matrix(c(183, 66103-183, 177, 66105-177?), nrow=2, 


byrow=T) 
rownames (dat) = c(*§creening”, `No Screening”) 
colnanes (đat) = c(*Death”, *§urvivor”) 


# dùng package epiR 


1ibrary (epiR) 


epi.2by2 (dat, method=”cohort.count”) 
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# Kết quả 


Disease + Disease - Total Inc risk * 
Exposed + 183 65920 66103 0.271 
Exposed - 177 65928 66105 0.268 
Total 360 131848 132208 0.272 


Point estimates and 95 $ CIs: 


Ine risk ratio 1.03 (0.84, 1.27) 
Odds ratio 1.03 (0.84, 1.28) 
Attrib risk * 0.01 (-0.05, 0,07) 
Attrib risk in population * 0 (~0.04, 0.05) 
Attrib fraction in exposed ($} 3.28 (-18.88, 21.31) 
Attrib fraction in population ($) 1.67 (-9.21, 11.46) 





Câu hỏi 9.5 So sánh tỉ suất phát sinh trong nghiên cứu đoàn hệ. Công 
trình nghiên cứu Womens Health Initiative (WHT) đánh giá ảnh hưởng của 
HRT (thay thế hormones) ở phụ nữ sau mãn kinh. Họ thực hiện một công 
trình RCT với hai nhóm phụ nữ: nhóm được điểu trị bằng HRT (estrogen và 
progestin) và nhóm chứng. Tính trung bình mỗi nhóm được theo đõi hơn 5 
năm, và ghi nhận số ca ung thư vú mới mắc. Kết quả như sau. Câu hỏi đặt ra 
là điểu trị bằng HRT có giảm nguy cơ ung thư vú? 


Nhóm Thời gian theo dõi Số phụ nữ _ Số mắc bệnh ung thưvú 
(năm) 

HRT 5.18 8506 166 

Chứng 5.10 8102 124 











Đáp: Khác với các vấn để vừa nêu trên, ở đây nghiên cứu có yếu tố thời gian. 
Do đó, chúng ta thay vì tính nguy cơ trên số bệnh nhân, chúng ta phải tính trên 
số năm-người (person-years). Chẳng hạn như đối với nhóm HRT, chúng ta có 
thể tính số năm-người như sau: 
5.18 x 8506 = 44061 
Tương tự, số năm người của nhóm chứng: 
5.10 x 8102 =41320 
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Thời gian theo dõi Sốphụnữ Sốnăm-người Số mắc bệnh ung thư vú 


(năm) trên 100 năm người 
HRT 5.18 8506 44061 0.376 
Chứng 5.10 8102 41320 0.300 


Từ đó, tỉ suất phát sinh (incidence rate) tính trên 100 năm-người cho 2 
nhóm là HRT và nhóm chứng: 
166 


l= 
44061 





x100 =0.376 


›= ce x100 =0.300 
“41320 


~ 





Tỉ số nguy cơ (RR) bây giờ là: 
RR= 1 _ 0376 _ 


=125 
1, 0300 


Nói cách khác, nhóm HRT có nguy cơ mắc bệnh ung thư vú cao hơn nhóm 
chứng 25%. Để xác định sự gia tăng này có ý nghĩa thống kê hay không, chúng 
ta cẩn phải tính khoảng tin cậy 95% của RR. Cách tính có thể thực hiện qua 4 
bước như sau: 

Bước 1: Hoán chuyển RR sang đơn vị log: 

logRR = log(1.25) = 0.223 


Bước 2: Tính phương sai của logRR dựa vào giả định rằng tần số mắc bệnh 
tuân theo luật phân bố Poisson: 


y=-L¿-L ~00I4 
166 124 


và sai số chuẩn của logRR 





Bước 3: Tính khoảng tin cậy 95% của logRR: 
0.223 + 1.96x0.119 = -0.010 đến 0.456 
Bước 4: Tính khoảng tin cậy 95% của RR: 
-— 
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exp(-0.010) = 0.99 
exp(0.456) = 1.58 
Như vậy, KTC95% dao động từ 1.00 đến 1.57. Chúng ta có chứng cứ để nói 
rằng phụ nữ dùng HRT có nguy cơ mắc bệnh ung thư vú cao hơn nhóm không 
dùng. Nguy cơ gia tăng mắc bệnh có thể dao động từ 0 đến 579%. 
Dùng R: 
Gói “ratetio” có thể sử dụng để tính tỉ số nguy cơ (RR) và khoảng tin cậy 
95% dưới giả định phân bố Poisson: 
1ibrary (rateratio. test) 


rateratio.test(c(166, 124), c(44061, 41320)) 
> rateratio.test(c(166, 124), c(44061, 41320)) 
Exact Rate Ratio Test, assuming Poisson counts 


data: c(166, 124) with time o£ c(44061, 41320), null 
rate ratio 1 


p-value = 0.06298 
alternative hypothesis: true rate ratio is not equal to 1 
95 percent confidence interval: 

0.9882336 1.5963046 

sample estimates: 

Rate Ratio Rate 1 Rate 2 


1.254632309 0.003765111 0.003000968 


Kết quả trên cho thấy RR = 1.25 và khoảng tin cậy 95% dao động từ 0.99 đến. 
1.60, tức rất giống với kết quả trên. 
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Câu hỏi 9.6 So sánh 2 tỉ suất. Năm 2006, một nhóm nghiên cứu Mĩ ~ 
Thái Lan tuyển 16,395 đối tượng từ cộng đồng (không phải nhóm có nguy cơ 
cao), tuổi từ 18 đến 30, theo các tiêu chuẩn định sẵn từ 2 tỉnh của Thái Lan. 
Tất cả những người này đểu không bị nhiễm HIV lúc tham gia công trình 
nghiên cứu; họ được chia thành 2 nhóm một cách ngẫu nhiên: 8197 người 
được tiêm 6 liều vaccine RV144, 8198 người dùng giả được (tức placebo). 
Sau 3 năm theo đõi, kết quả như sau: 51 người trong nhóm vaccine nhiễm 
HIV, và 74 người trong nhóm giả dược nhiễm HIV. 


Tham khảo: Rerks-Ngarm $, et al. Vaccination with ALVAC and 
AIDSVAX to prevent HIV-1 infection in Thailand. N Engl J Med 2009 Dec 
3;36 1(23):2209-20. 











Đáp: Ở dây, chúng ta có 2 biến quan trọng: số bệnh nhân và số ca bị nhiễm 
HIV. Vì tần số nhiễm quá thấp so với số năm-người, chúng ta có thể giả định 
rằng tỉ suất tuân theo luật phân phối Poisson. Trong nhóm vaccine, tỉ lệ bị nhiễm 
HIV là 0.00622, còn nhóm chứng thì tỉ lệ nhiễm cao hơn một chút: 0.00902. Các 
kết quả trên có thể tóm lược như sau: 





Nhóm Sốngườinăm  SốnhiễmHIV  Tisuất KTC95%. 
Vaccine 8197 s1 0.0062 0.0046, 0.0082 
Chứng 8198 72 0.0090 00071,00113 


Gọi tỉ suất nhiễm HIV cho từng nhóm là: 
Nhóm vaccine: p, = 0.0062 
Nhóm chứng: p, = 0.0090 
Tỉ số nguy cơ (rate ratio) có thể ước tính qua: RR=ếC, và khoảng tin 
0 
cậy 95% của RR. Có thể ước tính RR bằng hàm rateratio.test trong 
package rateratio.test: 
1ibrary (rateratio.test) 
rateratio.test(c(51, 74), c(8197, 8198)) 
Với kết quả: 
> rateratio.test(c(51, 74), c(8197, 8198)) 


Exact Rate Ratio Test, assuming Poisson counts 
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data: c(51, 74) with time of c(8197, 8198), null rate 
ratio 1 


p-value = 0.04874 
alternative hypothesis: true rate ratio is not equal to 1 
95 percent confidence interval: 


0,4727701 0.9980519 


sample estimates: 
Rate Ratio Rate 1 Rate 2 

0.689273267 0.006221788 0.009026592 

Chúng ta có: RR = 0.69 với khoảng tin cậy 95% dao động từ 0.47 đến 1.00, 
và trị số P = 0.049. Nói cách khác, vaccine giảm nguy cơ nhiễm khoảng 31%, với 
khoảng tin cậy 95% dao động từ ~1% đến 53%. 

Ngoài ra, cũng có thể sử dụng hàm poisson.test trong package stats để phân 
tích theo phương pháp chính xác. Cũng cho ra kết quả tương tự. 

> poisson.test(c(51, 74),c(8197, 8198)) 


Comparison o£ Poisson rates 


data: c(51, 74) time base: c(8197, 8198) 

countl = 51, expected countl = 62.496, p-value = 0.04866 
alternative hypothesis: true rate ratio is not equal to 1 
95 percent confidence interval: 


0.4727701 0.9980519 


sample estimates: 
rate ratio 


0.6892733 
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Câu hỏi 9.7 Tỉ số odds (odds ratio - OR) từ nghiên cứu bệnh chứng. 
Giri và đồng nghiệp (2004) thực hiện một nghiên cứu sơ khởi để đánh giá 
mối liên quan giữa phơi nhiễm chất độc da cam (AO) và ung thư tiển liệt 
tuyến. Họ chọn 47 cựu chiến binh Mi từng tham chiến ở VN và mắc bệnh 
ung thư tiền liệt tuyến, và 144 người không ung thư. Họ phỏng vấn để tìm 
hiểu bao nhiêu người bị phơi nhiễm AO, và kết quả như sau. Dữ liệu này có 
thể cho phép chúng ta kết luận về mối liên quan giữa phơi nhiễm AO và ung 
thư tuyến tiền liệt? 

Ung thư tuyến tiến liệt Nhóm chứng 


(n=47) (n=142) 
Phơi nhiễm AO 1 17 
Không phơi nhiễm AO 29 106 
Không rõ 7 21 


(Giri VN, Cassidy AE, Beebe-Dimmer J, Ellis LR, Smith DC, Bock 
CH, Cooney KA. Association between Agent Orange and prostate cancer: a 
pilot case-control study. Urology. 2004 Apr;63(4):757-60; discussion 760-1. 
Correction in Urology. 2004 Jun;63(6):1213.) 











Đáp: Trước hết, chúng ta có thể gộp nhóm “không phơi nhiễm” và nhóm 
“không rõ” thành một nhóm tạm gọi là “không phơi nhiễm”: 


Ung thư tuyến tiền liệt _ Nhóm chứng 


(n=47) (n=144) 
Phơi nhiễm AO. 11 17 
Không phơi nhiễm AO 36 127 


Một chỉ số để “đo lường” mối liên quan trong nghiên cứu bệnh chứng là tỉ số 
odds (OR). Chúng ta tính odds phơi nhiễm trong nhóm bệnh và nhóm chứng. 
Odds phơi nhiễm nhóm bệnh là: 

lI 


Ø.=—=0.306 
36 
và odds phơi nhiễm trong nhóm chứng: 
Œ= 2 — 0134 
127 


OR được định nghĩa là tỉ số của 2 odds như sau: 
0, _ 0306 _ 
Ø, 0.134 


2.28 
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Chúng ta cẩn ước tính sai số chuẩn (standard error, SE) của OR để tính 
khoảng tin cậy 95%. Tuy nhiên, rất khó ước tính SE của một tỉ số như OR, nên 
chúng ta phải tính gián tiếp, qua 4 bước như sau: 

Bước 1: Hoán chuyển OR sang đơn vị logOR: 

logOR = log(OR) = log(2.28) = 0.825 

Bước 2: Tính phương sai của logOR, và công thức rất đơn giản: 

l 1 1 


+—+-=+=0.185 
36 17 127 





Do đó, SE của logOR là: 
$E = \0.185 = 0.431 
Bước 3: Tính khoảng tin cậy 95% của logOR (bằng lí thuyết phân bố chuẩn): 
logOR - 1.96xSE đến logOR + 1.96xSE 
0.825 + 1.96x0.431 = -0.019 đến 1.669 
Bước 4: Hoán chuyển khoảng tin cậy 95% của logOR sang OR: 
exp(-0.019) đến exp(1.669) = 0.98 đến 5.31 


Nói cách khác, chúng ta có OR = 2.28 với khoảng tin cậy 95% đao động từ 
0.98 đến 5.31. Vì phần dưới của KTC95% OR thấp hơn 1 (khi OR = 1 có nghĩa là 
không có mối liên quan), nên chúng ta không thể kết luận rằng có mối liên quan 
giữa phơi nhiễm AO và ung thư tuyến tiển liệt. 

Dùng R: Tuy rằng các phân tích và tính toán trên có thể làm “thủ công”. 
nhưng trong R có package epiR có thể giúp chúng ta tính toán chính xác hơn. 
Mã R như sau: 

# nhập dữ liệu đưới dạng ma trận 2x2 


dat = matrix(c(11, 17, 36, 127), nrow=2, byrow=T) 
rownames (dat) = c(*AO”, *Not AO”) 
colnames (dat) = c(*Cancer”, *Control”) 


‡# dùng package epiR 


1ibrary (epiR) 
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epi.2by2 (dat, method=”case.control”) 
# cũng có thể dùng package epicalc 
1ibrary (epicale) 


cci(11, 17, 36, 127, design=”case.control”) 


> epi.2by2 (dat, method=“case.contro1”) 


Đisease + Đisease - Total Prevalence * 
Exposed + 11 17 28 39.3 
Exposed - 36 127 163 22.1 
Total 47 144 191 24.6 


Point estimates and 95 $ CI 








Odds ratio (W) 2.28 (0.98, 5.31) 
Attrib prevalence (W) * 17.20 (-1.98, 36.38) 
Attrib prevalence in population (W) * 2.52 (6.30, 11.35) 
Attrib fraction (est) in exposed ($%} 55.97 (~13.87, 82.43) 
Attrib fraction (est) in population (%) 13.15 (-2.83, 26.65) 








Kết quả tính toán của epiR cũng tương đương với cách tính thủ công như 
trên, Kết quả trên cho thấy odds mắc bệnh ung thư tiền liệt tuyến ở nhóm phơi 
nhiễm dioxin cao hơn odds ở nhóm chứng là 2.28 lần, và khoảng tin cậy 95% 
đao động trong khoảng 0.98 đến 5.31. Vì khoảng tin cậy 95% không hoàn toàn 
trên 1, nên chúng ta chưa đủ chứng cứ để nói rằng có mối liên hệ giữa phơi 
nhiễm dioxin và ung thư tiển liệt tuyến. 





Câu hỏi 9.8 Mô hình hồi qui logistic có điểu kiện cho nghiên 
cứu bệnh chứng bắt cặp (matched case-control). Một nghiên cứu bệnh 
chứng được thực hiện để thẩm định mối liên quan giữa loãng xương và 
gãy cổ xương đùi. Nghiên cứu có 51 ca gây cổ xương đùi, và được bắt cặp 
với 51 người không bị gãy xương. Kết quả được trình bày trong bảng số 
liệu dưới đây: 
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pair case age osteo 


1 1 61 0 
1 0 61 0 
2 1 s2 1 
2 0 s2 0 
3 1 64 0 
3 0 64 0 


Số liệu trên có thể tóm lược trong bảng dưới đây. Câu hỏi đặt ra là số liệu 
này cho tác giả kết luận về mối liên quan giữa loãng xương và gãy xương? 

















Nhóm chứn/ 
Nhóm bệnh - "— 

Loäng xương Không loãng xương 
Loäng xương, 11 28 
Không loãng xương 2 10 























Đáp: Chỉ số để trả lời câu hỏi là tỉ số odds (OR). Tuy nhiên, vì nghiên cứu. 
được thiết kế theo mô hình matched design, nên cách tính OR có phần đơn giản 
hơn các mô hình khác. Tỉ số odds có thể ước tính qua bảng số liệu trên như sau: 


—5 
2 


ØR 14 


Tương tự như cách tính KTC95% của OR, chúng ta cần tính logOR: 
OR =log(14) = 2.64 


và sai số chuẩn của logOR: 


SE= J1 
28 2 


KTC95% của OR có thể ước tính là: exp(2.64 + 1.96x0.732) = exp(2.64 + 
1.43) = 2.33 đến 58.8. Vì khoảng tin cậy 95% của OR đều cao hơn 1, nên chúng 
ta có chứng cứ để phát biểu rằng mối liên quan giữa loãng xương và gãy xương 
có ý nghĩa thống kê. 


0.732 





Dùng R: Trong R có hàm mcnema+ . exact trong package “exact2x2” 
có thể ứng dụng để tính tỉ số odds cho nghiên cứu matched case control. Trước 
hết, chúng ta nhập dữ liệu theo dòng: 
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data = matrix(c(11, 28, 2, 10), nrow=2, byrow=T) 


1ibrary (exact2x2) 


mcnemar .exact (data) 


Kết quả là OR = 14 (như tính thủ công) và khoảng tin cậy 95% từ 3.5 đến 


121.3, tức rộng hơn cách tính xấp xỉ: 


> mcnemar.exact (data) 
Exact McNemar test (with central confidence intervals) 


data: data 
b= 28, c = 2, p-value = 8.68e-07 
alternative hypothesis: true odds ratio is not equal to 1 
95 percent confidence interval: 

3.530311 121.277275 
sample estimates: 
odds ratio 

14 


Một phương pháp khác là dùng kiểm định MeNemar, vì đây là nghiên cứu 
theo mô hình bắt cặp (matched) bệnh chứng. Trong R có hàm mcnemar.test() có 
thể dùng để kiểm định giả thuyết: 

data = matrix(c(11, 28, 2, 10), nrow=2, byrow=T) 


mcnemar..test (data) 


Kết quả cho thấy trị số P rất nhỏ, tức mối liên quan giữa loãng xương và gãy 
xương có ý nghĩa thống kê. 
> mcnemar.test (data) 


McNemar's Chi-squared test with continuity correction 


data: data 
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McNemar°s chi-squared = 20.8333, đf = 1, p-value = 
5.01e-06 


Dùng mô hình hồi qui logistic. Trong R có hàm e1ogit thuộc package 
suzviva1 có thể sử dụng cho mô hình hồi qui logistic có điểu kiện. Để sử dụng 
hàm clogit, đữ liệu cẩn phải được sắp xếp như sau: 


pair case age osteo 


1 1 61 g 
1 0 61 0 
2 1 62 1 
2 0 62 0 
3 1 64 0 
3 0 64 0 


Chú ý trong cách sắp xếp trên, chúng ta có cột pair chính là mã số của mỗi 
cặp. Mỗi cặp có cùng mã số. Cột case có mã số 1=nhóm gãy xương và 0=nhóm 
chứng. Cột age là độ tuổi, vì mỗi cặp có cùng độ tuổi nên giá trị giống nhau. Cột 
osteo là yếu tố nguy cơ (loãng xương) với mã 1=loäng xương và 0=không loãng 
xương. 

# đọc dữ liệu 

cc = read.csv(*case-control.csv“, header=T) 


attach (cc) 


# gọi package survival và dùng clogit, chú ý dùng strata! 


1ibrary (survival) 


m = clogit(case ~ osteo + strata(pair)) 


# tóm lược kết quả phân tích 


sunna + ÿ (m) 
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coef exp(coef) se(coef) z Pr(lzl 
osteo 2.6391 14.0000 0.7319 3.606 0.000311 *** 


Signif. codes: 0 '\***7 0.001 ****° 0.01 *** 0.05 *.° 0.1 \* 1 


exp(coef) exp(-coef) lower .95 upper .95 
osteo 14 0.07143 3.335 58.77 





Câu hỏi 9.9 Phân tích khác biệt 2 tỉ lệ bằng phương pháp Bayes. Một 
nghiên cứu cổ điển về mối liên hệ giữa bổ sung calcium và vitamin D (CaD) 
và nhồi máu cơ tim (myocardial infarction - MI), chia bệnh nhân thành 2 
nhóm: nhóm chứng (placebo) gồm 8289 người, và nhóm bổ sung CaD gồm 
8429 người. Sau 5 năm theo dõi, số người bị MI trong nhóm chứng là 168 
và nhóm CaD là 209. 

















Nhóm Placebo CaD 
Tổng số bệnh nhãn. 8289 8429 
MI 168. 209 











Câu hỏi đặt ra là có khác biệt giữa hai nhóm? Có phải bổ sung CaD thật 
sự gây tác hại tăng nguy cơ MI? 











Đáp: Câu hỏi trên có thể trả lời bằng phương pháp kiểm định khác biệt giữa. 
2 tỉ lệ. Phương pháp đó có thể nói là tương đối chuẩn. Phương pháp cơ bản là 
kiểm định z cho 2 tỉ lệ. Gọi M, và N, là số cỡ mẫu cho nhóm 1 và nhóm 2; gọi x, 
và x, là sổ ca bệnh trong hai nhóm, chúng ta có thể tính tỉ lệ (hay nguy cơ) mắc 
bệnh cho từng nhóm như sau: 





Phương sai của tỉ lệ cho từng nhóm là: 


-Ð=P) và, „ p:U=Ð›) 


Ũ 2 


vị 
ì 


Tuy nhiên, chúng ta quan tâm đến hiệu số của hai tỉ lệ: 


4=P,~P, 
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Phương sai của hiệu số (kí hiệu v) chính là tổng phương sai của hai tỉ lệ: 


v=v,+Vv, 


Và độ lệch chuẩn là: 


s=Ww= 





Tỉ số đ/s tuân theo luật phân phối chuẩn (normal distribution). Do đó, nếu 
đ thật sự khác 0 (tức có khác biệt giữa hai nhóm), chúng ta kì vọng rằng đ / s sẽ 
cao hơn 1.96. Một cách khác là tính khoảng tin cậy 95%: 
d+1.96s 


Nếu khoảng tin cậy 95% không bao gồm 0 cũng có thể kết luận hai tỉ lệ khác 
nhau có ý nghĩa thống kê. 


Quay lại với trường hợp trên, chúng ta có thể tính bằng R như sau: 


n1 = 8429; n2 = 8289 

x1 = 209; x2 = 168 

p1 = xL/N1; p2 = x2/N2 
đ = pI-p2 

V1 = p1*(1-p1)/n1 

v2 = p2*(1-p2)/n2 

s = sqrt (v1+v2) 

z = abs(d/s) 

195 = d-1.96*s 

u95 = d+1.96*s 
p-value=1~pnozm (Z 

c(d, 195, u95) # 95%CI 
c(Z, p.value) # z and p value 


Kết quả phân tích cho thấy đ = 0.004 và khoảng tin cậy 95% là 0.00003 đến 
0.009. Giá trị z = 1.97 và P = 0.02. Nói cách khác, nguy cơ nhồi máu cơ tỉm ở 
nhóm CaD cao hơn nhóm placebo 0.4% và khác biệt này có ý nghĩa thống kê. 

Nhưng cách tính trên là cách tính xấp xỉ (approximation), chứ không phải 
cách tính chính xác. Để tính khoảng tin cậy 95% một cách chính xác, chúng ta 
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phải ứng dụng mô hình phân tích Bayes. Với phương pháp Bayes, chúng ta bắt 
đầu bằng cách xác định thông tin tiền định cho hai tỉ lệ P, và p„. Một cách khách 
quan nhất là mô hình thông tin tiến định bằng luật phân bố beta với thông số 
a=b= ]. Sau đó, chúng ta mô phỏng bằng cách lấy mẫu từ hai phân bố 50,000 
lần, và tính hiệu số cũng như khoảng tin cậy 95%. Mã R dưới đây sẽ giúp chúng 
ta tính khoảng tin cậy 95% một cách chính xác: 





n = 50000 

n1 = 8429; n2 = 8289 

x1 = 209; x2 = 168 

al = 1; b1 = 1; a2 = 1; b2 = 1 

P1 = rbeta(n, xi+al, n1-x1+bl) 

P2 = rbeta(n, x2†a2, n2-x2+b2) 

diff = pl-p2 

plot (density (di££) ) 

quantile(diff, c(0.025, 0.50, 0.975)) 


Kết quả phân tích cho thấy đ = 0.004, nhưng khoảng tin cậy 95% là -0.00003 
đến 0.009. Kết quả này dẫn đến một kết luận trái ngược với kết luận trên. Khoảng 
tin cậy dao động từ số âm đến số đương, nên chúng ta phải kết luận sự khác biệt 
về nguy cơ MI giữa 2 nhóm không có ý nghĩa thống kê. 











Chúng ta có thể thể hiện kết quả phân tích trên bằng risk ratio (RR), tức tỉ 
số nguy cơ, thay vì hiệu số: 

n = 50000 

nl = 8429; n2 = 8289 

x1 = 209; x2 = 168 

ai = 1¿ b1 = 1¿ a2 = 1; b2 = 1 


p1 = rbeta(n, xi+al, n1-x1+bl) 

P2 = rbeta(n, x2+a2, n2-x2+b2) 

xzr = pl/p2 

quantile(rr, c(0.025, 0.50, 0.975)) 
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> quantile(rr, c(0.025, 0.50, 0.975)) 
2.5% 50% 97.5% 
1.001462 1.222105 1.491739 


Kết quả cho thấy tỉ số nguy cơ là 1.2, với khoảng tin cậy 95% đao động từ 
1.0 đến 1.5. 





Câu hỏi 9.10 Phân tích Ki bình phương. Các nhà nghiên cứu Ấn Độ 
nghiên cứu về nguy cơ ung thư miệng và các yếu tố nguy cơ ở Kerala (Ấn Độ) 
trong thời gian 1982 đến 1986 (Sankaranarayanan et al 1989). Số liệu dưới 
đây là ở bệnh nhân trên 30 tuổi: 




















Thói quen Ung thư lưỡi Ung thư miệng | Ung thư cổ họng 
Nhai thuốc lá 146 267 121 
Hút thuốc lá 7! 166 102 
Bỉa rượu HÌ 71 46 
Không có các thói quen trên 17 12 6 

















Câu hỏi đặt ra là có mối liên quan giữa các thói quen trên và loại ung thư? 





Đáp: Để “hình dung” dữ liệu, chúng ta có thể tính phần trăm cho từng 
nhóm ung thư dưới đây: 




















Thói quen Ung thư lưỡi Ung thư miệng | Ung thưcổ họng | Tổng số 
Nhai thuốc lá 0512 0517 0.440 0.496. 
Hút thuốc lá 0.249 04322 04371 04315 
Bịa rượu. 0.179 0.138 0.167 0.156 
Không có các thói 0.059 0023 0022 0.032 
quen trên 
Tổng. 1.000 1.000 1.000. 1.000 























Dựa vào kết quả trên, chúng ta thấy trong nhóm ung thư lưỡi và ung thư 
miệng, có đến 51-52% có thói quen nhai thuốc lá. Nếu thói quen giống nhau, 
chúng ta kì vọng số ung thư sẽ như sau: 

















Thói quen Ungthưlưỡi ¡ Ungthưmiệng | Ungthưcổhọng | Tổng số 
Nhai thuốc lá 0496x285=14i | 0.496x516=256 | 0496x275=136 | 0496 
Hút thuốc lá 0.315 x285=90 0.315 x516=162 0.315 x275=87 04315 
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Bia rượu 0.156x285=44 | 0.156x516=80 | 0.156x275=43 0.156 

Không có các thói 0.032x285=9 0.032x516=17 0.032x275=9 0.032 

quen trên 

Tổng 285 516 275 1076 
Sự khác biệt giữa giá trị quan sát (O) và giá trị kì vọng (E) có thể định lượng 


qua D = (O- E)/E cho mỗi ô trong bảng số liệu trên. Tổng số D chính là Ki bình 
phương: 





2 2 2 
146-141 71-90, 6-9 
r‹l ) +f ) . ) =20.2 
141 90 9 
với 6 bậc tự do, kết quả này có ý nghĩa thống kê (P = 0.0026). Từ kết quả này, 
chúng ta có thể kết luận rằng có mối liên quan giữa thói quen và loại ung thư. 
Dùng R: 
dat = matrix(c(146, 267, 121, 
71, 166, 102, 
51, 71, 46, 
17, 12, 6), nrow=4, byrow=T 


rownames (đat) = c(*Chewing”, *Smoking”, "Alcohol”, 
"None”) 
colnanes (dat) = c(*Tonge cancer”, *Buccal mucosa”, 


*®Other cancers”) 


chisq. test (da) 
# Kết quả 
Pearson“s Chỉ-squared test 
data: dat 
X-squared = 20.178, d£ = 6, p-value = 0.002574 





Câu hỏi 9.11. Kiểm định phân bố ngẫu nhiên. Đột tử (sudden infant 
death syndrome hay SIDS) là một vấn để nhức nhối. Bảng số liệu đưới đây 
tóm lược số ca đột tử từ Quận King (Washington) và phân theo mùa. Số ca 
đột tử trong 10 năm là 322 và phân theo mùa như sau: mùa đông 78 em, xuân 
71, hè 87, và thu 86. Câu hỏi là phân bổ này ngẫu nhiên hay có xu hướng có 
hệ thống? 
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Mùa Số ca bệnh. 
Đông 

Xuân 

Hè 

Thu 


Tổng số 





`1. 





phương pháp phân tích trong nhóm phương pháp "linear model” (mô 

hình tuyến tính). Để so sánh một biến liên tục giữa hai nhóm đối tượng, 
chúng ta dùng phương pháp kiểm định f hay các phương pháp phi tham số 
(Chương 9). Nhưng để so sánh một biến liên tục giữa 3 nhóm hay hơn 3 nhóm, 
phương pháp kiểm định ¿ trở nên kém hiệu quả, và phương pháp ANOVA được 
áp dụng. Do đó, mục tiêu chính của ANOVA là so sánh nhiều nhóm và biến 
phân tích phải là biến liên tục. 


Giả dụ chúng ta có số liệu 5 của 3 nhóm bệnh nhân (j = 1, 2, 3). Chúng ta 
có thể ước tính giá trị trung bình của 3 nhóm. Mô hình phân tích phương sai bắt 
đầu bằng giả thuyết vô hiệu (H0) rằng giá trị trung bình của 3 nhóm là không 
khác nhau. Như vậy, giả thuyết chính (H1) của mô hình phân tích phương sai là 
giá trị trung bình của ít nhất 2 nhóm sẽ khác nhau (nhưng chúng ta không biết 
hai nhóm nào!). Cẩn phải tiến hành phân tích hậu định (posthoc analysis) để 
xác định cụ thể 2 nhóm nào thật sự khác nhau. Mô hình để kiểm định giả thuyết 
vô hiệu này là: 


P hân tích phương sai (analysis of variance hay ANOVA) là một trong những 


Xụ =u+d,+e, 
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Hay cụ thể hơn: 





Tức là, giá trị x của bất cứ bệnh nhân nào bằng giá trị trung bình của toàn. 
quần thể (u) cộng/trừ cho ảnh hưởng của nhóm j được đo bằng hệ số ảnh hưởng 
đ„ và sai số e„ Một giả định khác là z, phải tuân theo luật phân phối chuẩn với 
trung bình 0 và phương sai ơ?. Hai tham số cẩn ước tính là w và œ„ Hai tham số 
này được ước tính bằng phương pháp bình phương nhỏ nhất; tức là tìm ước số 
ñ và &, sao cho 3 (x,~#—ê,)` nhỏ nhất. Phương pháp này được triển khai 
trong hàm 1m hoặc aov. 





... 

Câu hỏi 10.1 Phân tích phương sai một yếu tố. Dữ liệu dưới đây là 
nồng độ của một hormone trong 4 nhóm bệnh nhân (A, B, C, D). Kiểm định 
giả thuyết vô hiệu là nồng độ hormone của 4 nhóm như nhau. 

^ B € D 
8 7 28 26 
9 17 21 16 
11 10 26 15 
4 14 „1 12 
7 12 24 ° 
8 2 19 10 
5 1 1 
2 17 
15 











Đáp: Đây là một vấn để của phân tích phương sai (analysis of variance hay 
ANOVA). Phương pháp ANOVA có thể ứng dụng để so sánh nhiều nhóm (thay 
vì 2 nhóm như kiểm định t), và biến phân tích phải là biến liên tục. Ở đây giả 
thuyết đặt ra là trọng lượng trung bình (u) của 4 nhóm bệnh nhân như sau: 

Hợ Mạ = Hạ = Hc = Mp 
Để thực hiện phân tích ANOVA trong R, chúng ta phải đọc dữ liệu vào R: 
A~ơ(8, 9, 11, 4, T, 8, 5} 
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B=c(7, 17, 10, 14, 12, 24, 11, 22) 

C= c(28, 21, 26, 11, 24, 19) 

D= c(26, 16, 13, 12, 9, 10, 11, 17, 15) 

Để phân tích phương sai trong R, chúng ta cần phải tạo ra 2 biến từ dữ liệu 
trên: biến thứ nhất chỉ nhóm, và biến thứ hai là hormone. 

hormone = c(A, B, C, D) 


group = c(rep(`A“, 7), rep(*B“, 8), rep(*C”, 6) 
rep(SD“, 9)) 


dat = data.frame (hormone, group)} 


boxplot (hormone ~ group) 


Nhìn qua biểu đổ hộp dưới đây, chúng ta có cảm tưởng có sự khác biệt giữa 
4 nhóm bệnh nhân vể hormone. 























Nhưng để kiểm định nghiêm chỉnh, chúng ta sẽ dùng hàm aov dùng để 
phân tích phương sai như sau: 
av = aov(hormone ~ group) 


sunmary (av) 


> summary (av) 

D£ Sum Sq Mean $Sq F value Pr(>F 
group 3 642.3 214.09 8.197 0.000528 +**+ 
Residuals 26 679.1 26.12 
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Signif. codes: 


0 *#**”/ 0.001 ***2 0.01 *** 0.05 và 


0.1971 


Kết quả cho thấy mức độ biến thiên giữa các nhóm (214.1) cao hơn mức độ. 
biến thiên trong mỗi nhóm (26.1). Với kiểm định E = 8.2 và trị số P = 0.0005, 
chúng ta kết luận rằng có sự khác biệt giữa các nhóm bệnh nhân về nồng độ 


hormone. 








Câu hỏi 10.2 Kiểm định giả thuyết hậu định (posthoc comparison). 
Tiếp tục câu hỏi 10.1 kiểm tra sự khác biệt giữa mỗi hai nhóm bệnh nhân. 








Đáp: Kết quả trên chỉ cho biết có sự khác biệt giữa các nhóm bệnh nhân, 
nhưng không cho biết nhóm nào khác với nhóm nào. Một cách để so sánh mỗi 
2 nhóm là dùng phương pháp kiểm định hậu định (posthoc test) Tukey với hàm 


TuykeyHSD: 


av = aov(hormone ~ group) 


TukeyHSD (av) 


> TukeyHSD (av) 


Tukey multiple comparisons of means 


95% family-wise confidence level 


Fit: aov(formula = hormone ~ group) 


§group 

dif£ 
B-A 7.1964286 
C-A 14.0714286 
D-A 6.9047619 
C-B 6.8750000 
D-B -0.2916667 
D-C -7.1666667 


l1wr 
~0.05969765 
6.27132726 
~0.16073856 
~0.69675602 
~7.10424368 
~14.55594392 


14. 
21. 
13. 
14. 
.5209103 
0. 


6 


upr 
4525548 
8715299 
9702624 
4467560 


2226106 


0 
0 
0 
0 
0 


p ađj 


.0525014 
„0002134 
40571911 
.0850381 
.9994049 
0. 


0597131 


Kết quả phân tích chỉ ra rằng chỉ có nhóm C và A là khác biệt có ý nghĩa 
thống kê (P = 0.0002), còn các nhóm khác thì sự khác biệt không có ý nghĩa 
thống kê. Theo kết quả trên, tính trung bình, nhóm C có nồng độ cao hơn nhóm 
A là 14.1, với khoảng tin cậy 95% đao động từ 6.3 đến 21.8. 
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Ngoài ra, cũng có thể thể hiện kết quả phân tích trên bằng cách vẽ hiệu số 


giữa các nhóm và khoảng tin cậy 95% bằng hàm plot: 


plot (TukeyHSD (av), ordered=T) 


95% family-wise confidence level 


DC D8 CB DA CÁ BÀ 





Differences Ìn mean levels of group 








Câu hỏi 10.3 Độ biến thiên sinh học. Các nhà nghiên cứu đo IGFI trên 
15 đàn ông tuổi từ 18 đến 35, lặp lại trong ba tuần liên tiếp. Trong mỗi lần 
đo (mỗi tuần), thì đo làm bai lần. Số liệu thu thập được trình bày trong bảng, 
dưới đây. Hãy nhận xét về mức biến thiên sinh học của nội tiết tố IGFI. 








ID 


œx a0 R0 Nà 


© 


11 
12 
13 
14 
13 


Tuần 1 
~ IGFI-1 
113 
100 
122 
124 
118 
110 
115 
116 
123 
138 
199 
151 
217 
277 
140 


Tuần 1 
~ IGFI-2 


128 
137 
122 
127 
123 
106 
106 
109 
127 
146 
197 
151 
214 
294 
137 


Tuần 2 
~ IGFI-1 


158 
64 

197 
209 
164 
133 
109 
137 
167 
172 
22 
155 
237 
296 
118 


Tuần 2 - 
IGFI-2 


184 
80 

214 
207 
160 
123 
107 
137 
174 
175 
220 
157 
247 
287 
116 


Tuần 3 - 
IGFI-1 


146 
99 

189 
175 
192 
104 
99 

124 
121 
181 
195 
162 
265 
276 
136 


Tuần 3 - 
IGFI-2 


166 
100 
207 
184 
194 
94 

97 

128 
113 
164 
200 
176 
250 
270 
140 


_169 —_ 
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Đáp: Chúng ta có thể cho rằng số đo của IGFI của cá nhân thứ ¡ là tổng của 
ba trị số: giá trị "thực” của cá nhân (kí hiệu là „,), độ biến thiên ở tuần thứ j (w, 
với j = 1, 2, 3) và một sai số ngẫu nhiên do đo lường (e,). Nói cách khác: 

IGEI, =j, + w, +, 

Giả định cả ba yếu tố này đều tuân theo luật phân phối chuẩn và độc lập với 
nhau. Với giả định đó thì mức độ biến thiên chung của IGFI có thể do ba yếu tố 
gây ra: (1) biến thiên giữa các đối tượng (kí hiệu là B); (2) biến thiên bên trong 
mỗi đối tượng giữa các tuần đo khác nhau (kí hiệu là W); và (3) một biến thiên 
đo sai số ngẫu nhiên (E). Chúng ta có thể sử dụng R để tính ra được kết quả của 
các nguồn biến thiên này như sau: 























Nguồn Biến thiên Độ lệch chuẩn 
Giữ các đối tượng 24785 478 
Giữa các tuần 169.3 130 
Phần dư (residual) 3229 180 
Tổng số 2970.7 











Theo kết quả trên, ta có thể thấy rằng ~83% (2478.5 / 2970.7) mức độ dao. 
động chung của IGFI là do biến thiên giữa các đối tượng. Điều quan trọng hơn ở 
đây chúng ta thấy rằng mức độ biến thiên giữa các tuần tương đối thấp (5.7% hay: 
169.3/2970.7), thấp hơn so với mức độ biến thiên do sai số ngẫu nhiên (10.9%) 
so với tổng phương sai. 

# Đọc dữ liệu 

ig£ = read.csv(*igf data.csv”, header=T) 


attach (ig£f) 


# Tạo data mới theo chiểu dọc 

x= c(weekll, weekl2, week2l, week22, week31l, week32) 
dd = c(1:15, 1:15, 1:15, 1:15, 1:15, 1:15) 

week = c(rep(1, 15), rep(2, 15), rep(3, 15)) 


measure = c(rep(1,15), rep(2, 15), rep(1,15), rep(2,15), 
rep(1,15), rep(2,15)) 


dat = data.frame(week, measure, x) 
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# Dùng chương trình lIme4 
1ibrary (1me4) 


mod = lmer(x ~ 1 + week + (1+weeklid), data=dat) 
summary (mod) 
>_ sunvnary (mod) 


Random effects: 


Groups  Name Variance Std.Dev. Corr 
id (Intercept) 2105.231 45.883 

week 3.651 1.911 1.00 
Residual 502.406 22.414 


Fixed effects: 

Estimate Std. Error t value 
(Intercept) 151.667 13.395 11.323 
week 4.500 2.935 1.533 


Correlation of Fixed Effects: 
(Tntr) 
week ~0.277 








Câu hỏi 10.4 Phân tích hiệp biến (analysis of covariance). Bảng số liệu 
dưới đây phản ảnh nồng độ hemoglobin (g/đL) và chiểu cao (em) được đo. 
lường ở 31 sinh viên y khoa tuổi từ 19 đến 30. Hãy kiểm định giả thuyết rằng, 
nồng độ Hb có liên quan đến chiểu cao. 








Sinh viên Giới tính Chiều cao (cm)  Hb(g/dL) 


1 1 168 110 
2 1 165 14.5 
3 1 166 140 
4 1 167 13.5 
5 1 167 138 
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6 1 167 14.1 
7 1 170 138 
8 bộ 171 14.7 
9 Lộ 172 15.0 
10 1 172 15.1 
11 1 173 138 
12 1 177 13.1 
13 1 178 138 
14 2 166 16.0 
15 2 172 16.5 
16 2 175 18.9 
17 2 173 16.1 
18 2 174 16.3 
19 2 176 16.2 
20 2 176 170 
21 2 178 16.5 
2 2 179 16.4 
23 2 178 16.2 
24 2 180 16.3 
25 r3 180 170 
26 2 185 171 
27 k2 186 173 
28 rà 186 1548 
29 2 189 16.3 
30 t3 193 15.9 


Chú thích: Giới tính =1 có nghĩa là nữ và 2 có nghĩa là nam. 


Đáp: Chúng ta kì vọng rằng Hb có liên quan đến chiểu cao, nhưng chiểu cao. 
lại có liên quan đến giới tính (nam có Hb cao hơn nữ). Do đó, đánh giá mối liên 
quan giữa Hb và chiểu cao, chúng ta cần phải hiệu chỉnh cho giới tính. Phương 
pháp hiệu chỉnh thích hợp là phân tích hiệp biến. Trước hết, chúng ta cần nhập 
đữ liệu vào R: 

height = c(168, 165, 166, 167, 167, 167, 170, 171, 172, 

172, 173, 177, 178, 166, 172, 175, 173, 174, 176, 176, 

178, 179, 178, 180, 180, 185, 186, 186, 189, 193) 


= c(11.0, 14.5, 14.0, 13.5, 13.8, 14.1, 13.8, 14.7, 
15.0, 15.1, 13.8, 13.1, 13.8, 16.0, 16.5, 18.9, 16.1, 
3, 16.2, 17.0, 16.5, 16.4, 16.2, 16.3, 17.0, 17.1, 
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17.3, 15.8, 16.3, 15.9) 
sex = C(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 
3y tổ; 2 ụ. Đị: đu lên Su Sy (ổạ (â, Đụ. đọ 9Ÿ 


sex = as.factor (sex) 


đat = data.£frame(height, hb, sex) 


Mối tương quan giữa Hb và chiểu cao có thể xem qua biểu đồ sau đây: 
1ibrary (ggplot2) 


P = ggplot(data=dat, aes(x=height, y=hb, col=sex)) 
P + geom point () 





175- ~ 
si Của ° 
Co lung * 
* ® = F 
sex 
£150- , . 
- . 
... . 
* 
125- 
. 
I6 170 175 l80 185 190 
height 


Hệ số tương quan giữa Hb và chiều cao -- qua cor. test (hb, height) 
-- là 0.51 (P = 0.0038). Nói cách khác, sinh viên với vóc người cao có độ 
hemoglobin cao hơn sinh viên với vóc người thấp. 


Tuy nhiên, kết luận trên có thể sai! Chúng ta biết rằng nam thường có vóc 
người cao hơn nữ, cho nên rất có thể hemoglobin chẳng có liên quan gì đến 
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chiểu cao, mà chỉ đơn thuần liên quan đến giới tính. Biểu đổ dưới đây trình bày, 
sự khác biệt về chiểu cao (biểu đổ bên trái) và Hb (biểu đồ bên phải) giữa nam 
và nữ, và theo đó, nam có chiểu cao và Hb cao hơn nữ: 
> par (mfrow=c (1,2)) 
> boxplot (height ~ sex, ylab=”Height“, xlab=“Sex”, 
col=c(*red”, *blue”)) 
> boxplot (hb ~ sex, ylab=”Hb“, xlab=“Sex”, col=c(*red”, 
"blue”)) 


Height 
165 170 175 180 185 190 








Do đó, cách tốt nhất để biết thật sự có liên hệ giữa chiều cao và hemoglobin. 
hay không, chúng ta phải phân tích theo từng giới. Thật ra, chúng ta có thể áp 
dụng mô hình phân tích hiệp biến (analysis of covariance hay ANCOVA) để biết 
trong hai yếu tố (chiểu cao và giới), yếu tố nào có ảnh hưởng đến Hb. Mô hình 
ANCOVA có thể viết đơn giản như sau: 

Hb =a + bxHeight + cxSex 


Trong đó, a, b và c là những thông số cần ước tính từ số liệu. Chúng ta ước 
tính các tham số a, b, và c là như sau: 
>m = 1m(hb ~ height + sex, data=dat) 


>_summary (m) 


Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 14.563797 4.954512 2.940 0.00666 ** 
height -0.004125  0.029068 -0.142 0.88820 
sex2 2.751836  0.420051 6.551 5.02e-07 *** 
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Signif. codes: 0 \*#** 0.001 **** 0.01 *** 0.05 *.' 0.1 * 1 


Residual standard error: 0.8954 on 27 degrees of freedom 
Multiple R-squared: 0.715, Adjusted R-squared: 0.6939 
F-statistic: 33.88 on 2 and 27 DF, p-value: 4.36e-08 


Có thể tóm tắt kết quả trên trong bảng sau đây: 


























Thông số Hệ số (SE) Trị số P 
a (tức intercept) 11.81 (4.72) 0.007 
b (ảnh hưởng của chiếu cao) ~0.004 (0.029) 0.888 
€ (ảnh hưởng của giới tính) 2.75 (0.42) <0.0001 





SE: sai số chuẩn (standard error) 


Kết quả phân tích trên xác định chiểu cao không có ảnh hưởng đến Hb, 
nhưng giới có ảnh hưởng. Phân tích trên cho thấy sau khi điểu chỉnh cho chiều 
cao, Hb ở nam giới, tính trung bình, cao hơn nữ giới khoảng 2.75 g/dL với sai sổ 
chuẩn là 0.42 g/dL. Kinh nghiệm quan trọng qua ví dụ này là nếu phân tích mà 
không xem xét đến ảnh hưởng của các yếu tố conƒfounder (trong trường hợp này. 
là giới tính) rất đễ đi đến kết luận sai. 





Câu hỏi 10.5 Phân tích thí nghiệm tái lập (repeated analysis of 
variance). Nghiên cứu sau đây đã được thực hiện trên 19 chuột được phân 
chia thành 2 nhóm: nhóm được cho uống một loại dược thảo gồm 9 chuột 
(test) và nhóm chứng gồm 10 chuột không được điều trị. Nồng độ glucose 
được đo lường lúc ban đầu (trước khi uống thuốc), 2 giờ, 3 giờ và 4 giờ sau 
khi uống thuốc. Kết quả nghiên cứu được tóm lược trong bảng số liệu sau 
đây. Kiểm định giả thuyết có sự khác biệt về nồng độ glucose giữa hai nhóm. 
chuột. 











Bảng 1. Nồng độ glucose của nhóm chuột được điều trị và nhóm chứng 


Treatment id T0 T2 T3 T4 
Test 1 sø 3.9 a8 36 
Test 2 53 47 3.5 32 
Test k) 46 37 33 32 
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Test 
Test 
Test 
Test 
Test 
Test 
Control 
Control 
Control 
Control 
Control 
Control 
Control 
Control 
Control 
Control 


62 
60 
64 
76 
sø 
75 
6.2 
6.9 
S6 
51 
s7 
50 
s2 
77 
80 
77 


46 
54 
47 
41 
3.1 
61 
s3 
s6 
47 
39 
47 
40 
42 
6.2 
58 
50 


Chú thích: ¡đ là cột chỉ mã số của chuột. 


43 
52 
48 
3.8 
3.6 
54 
49 
s9 
46 
29 
43 
35 
40 
61 
6.5 
63 


kh 
48 
43 
41 
33 
46 
45 
s9 
40 
29 
46 
33 
3.8 
57 
6.0 
62 


Đáp: Thông thường phương pháp phân tích phương sai được ứng dụng 
để giải đáp vấn để này. Tuy nhiên, ngày nay một phương pháp khác có ích hơn 
có tên là “mixed effects model” (mô hình ảnh hưởng hỗn hợp) được ứng dụng 
để phân tích nguồn phương sai chính xác hơn và logic hơn mô hình phân tích 
phương sai cổ điển. 


# Nhập số liệu glucose và gọi tên biến của là y: 


y=c.9, 


3.3, 
6.4, 
3.6, 
6.9, 
2.9, 
5.2, 
6.5, 


3.9, 
3.2, 
4.1, 
3:3} 
5.6, 
2.9, 
4.2, 
6.0, 


3.9% 
6.2, 
4.8, 
7.5, 
5.9, 
5.7, 
4.0, 
đạn 


3.6, 
4.6, 
4-3, 
6.1, 
5.9, 
4.7, 
3.8, 
5.0, 


id = rep(1:19, each=4) 


5.3, 
4.3, 
1-6, 
5.4, 
5.6, 
4.3, 
1.1, 
6.3, 


4.1, 
3.9, 
4.1, 
4.6, 
4.1, 
4.6, 
6.2, 
6.2) 


3.5, 
6.0, 
3.8, 
6.2, 
4.6, 
5.0, 
6.1, 


ƠI 1 BƠ ho Ơ 


œ 0 Ơn SƠ Ơn 
*e 


Ơn 0 0 0 s1 
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time = rep(c(0,2,3,4), 19) 


treatment = rep(1:2, c(9*4, 10*4)) 


# Tạo ra một dữ liệu gọi là “glucose”. 


glucose = data.frame(id,treatment, time ,y) 


# Vẽ biểu đồ cho từng chuột và từng nhóm 
1ibrary (ggp1ot2) 


P = ggplot(data=glucose, aes(x=time, y=y, group=id, 
col=factor (treatment) )) 


P=P + geom line() + facet grid(. ~treatment) + stat_ 
smooth (aes (group = 1)) 


` 


Vì Ê AtU Da 3 3 
time 


factor(treatment) 





3> 





Biểu đồ trên cho thấy nống độ glucose lúc ban đầu (time = 0) dao động rất 
lớn giữa các chuột. Ngoài ra, tốc độ giảm glucose cũng rất khác biệt giữa các 
chuột. Tính trung bình, nổng độ glucose của nhóm 2 có vẻ cao hơn nhóm 1, 
nhưng chúng ta phải kiểm tra xu hướng này qua phân tích thống kê. 
1 — 
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Gọi y, là nồng độ glucose đo lường được cho chuột ¡, chúng ta có thể hình 
dung ra một mô hình để mô tả sự thay đổi nồng độ glucose ở từng chuột như sau: 
y,=a,+bT 

Trong đó a, là nồng độ glucose trước khi uống thuốc của chuột ¡; b, là tốc độ 
giảm glucose của chuột ¡. Tốc độ giảm glucose tùy thuộc vào thời gian và thời 
gian time có thể tạm kí hiệu bằng T. Ở đây T = 0, 2, 3, và 4. 

Chúng ta muốn có khác biệt đáng kể về nồng độ glucose lúc ban đầu (4) 
giữa hai nhóm chuột, do đó phương trình trên trở thành: 

q,=A,+ A,x treatment + w 

Ngoài ra, có thể có sự khác biệt về tốc độ giảm glucose giữa hai nhóm (b), 
và chúng ta cẩn tìm hiểu mức độ khác biệt hay ảnh hưởng này. Một cách để biết 
ảnh hưởng của điểu trị là viết lại phương trình: 

b,=B, + B, x treatment + y 
Do đó, mô hình trở thành: 
3ị =đ+b,T+e, 
y,= (A,+ A,+x treatment + ø) + (B, + B, x treatment + w)T + e, 
y,= (A, + A,xtreatment + B,T + B,xtreatmentxT) + (w + vT + e) 
Đây là mô hình chính của nghiên cứu. Trong mô hình trên, ngoài các thông 


số khác đã giải thích, chúng ta thấy có hai thông số mới và ý nghĩa của 2 thông 
số này như sau: 


«4, x treatment phản ảnh sự khác biệt nồng độ glucose lúc ban đầu giữa 
hai nhóm chuột; 

« -B, x treatment x T phản ảnh mức độ khác biệt về tốc độ giảm glucose 
giữa hai nhóm chuột; do đó, chính là kiểm định thống kê cho giả thuyết 
của nghiên cứu. 

Chúng ta sẽ dùng Ime4 để ước tính các thông số trong mô hình. 

# Gọi chương trình lme4: 

1ibrary (1me4) 


fik2 = lmer(y ~ 1 + treatment + time + tỉme:treatment + 
(1+time|id), data=glucose, REML=0) 


summary (fit2) 
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Kết quả như sau: 





Random e£ffects: 


Groups Name Variance Std.Dev. Corr 
iđd (Intercept) 6.878e-01 0.829313 

time 5.157e-06 0.002271 1.00 
Residual 2.299e-01 0.479518 


Number of obs: 76, groups: id, 19 


Fixed effects: 
Estimate Std. Error t value 


(Intercept) 5.,81683 0.69150 8.412 
treatment 0.15302 0.43060 0.355 
time ~0.74032 0.11962 -6.189 


treatment:time 0.16730 0.07449. 2.246 


Correlation of Fixed Effects: 
(Intr) trtmnt time 

treatment ~0. 950 

time -0.377 0.358 

treatmnt:tm 0.358 -0.377 -0.950 











Đối chiếu với mô hình trên, các tham số trên như sau: 


y,= (A, + A,xtreatment + B,T + B,xtreatmentxT) + (w + vT + e) 


Thông số Ý nghĩa Ước số 
A Nồng độ trung bình glucose lúc ban đầu của quần thể 5.82 

A, Khác biệt về nồng độ glucose lúc ban đầu giữa hai nhóm _0.15 

B, Ảnh hưởng của thời gian (time) đến sự giảm glucose -0.74 
B, Khác biệt về tốc độ giảm glucose giữa hai nhóm 0.17 


Do đó, mô hình trở thành: 
},= 5.82 + 0.15 x treatment - 0.74 x time + 0.17 x treatment x time 


Nên nhớ rằng chúng ta gọi treatment = 1 chỉ thuốc và treatment = 2 chỉ 
nhóm chứng, và time có 4 giá trị: 0, 2, 3, và 4. Cho nên, mô hình mô tả sự dao 
động của glucose trong nhóm được điều trị bằng thuốc là: 
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..... 





v/ “4-5 
đi} Mô hình hồi qui tuyến tính 


-Ä \& 






ô hình hổi qui tuyến tính (thuật ngữ tiếng Anh là linear regression 
M model) là một trong những mô hình phân tích dữ liệu phổ biến nhất 

trong thống kê học. Mô hình hồi qui tuyến tính cũng chính là cơ sở 
cho nhiều mô hình hổi qui khác như hồi qui logistic, hồi qui nhị thức, hồi qui 
Poisson, v.v. mà chúng ta sẽ tiếp cận trong chương tới. Người có sáng kiến về mô 
hình hồi qui tuyến tính là nhà nhân chủng học nổi tiếng Francis Galton (1822 
- 1911). Ông còn là người chủ xướng chủ nghĩa ưu sinh (eugenics), với sở thích 
nghiên cứu về ảnh hưởng của yếu tố đi truyền đến tính thông minh. 


Gọi Y, là biến phụ thuộc (outcome) và X là biến tiên lượng (predictor 
variable) của cá thể ¡ (¡ = 1, 2, 3, ...., n), mô hình hồi qui tuyến tính phát biểu 
rằng giá trị của Y, có liên quan đến X, bằng một trọng số Š và một hằng số điểu 
chỉnh a, cộng/trừ sai số ngẫu nhiên e, liên quan đến cá thể đó: 

Y.=a+bX.+e, 

Hằng số a được gọi là infercept, là điểm khởi đầu, tức giá trị của Y khi 
X=0. Hệ số B được gọi là slope hay gradient, tức độ dốc, tức là giá trị của Y khi 
X tăng một đơn vị (nếu X là biến liên tục) hay so với nhóm chứng (nếu X là biến 
phân loại). Trong mô hình trên e, được giả định tuân theo luật phân bố chuẩn 
với trung bình 0, phương sai bất biến là ơ?, và e,„ e.„ e,„ phải độc lập với nhau (tức 
hệ số tương quan là 0). Với các giả định trên, giá trị kì vọng của Y, là E(Y,) = a + 
bX, và phương sai là ở. 
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Hai tham số a và B phải được ước tính từ các giá trị quan sát. Tạm gọi ước số 
của œ và B lần lượt là a và b. Nói cách khác, giá trị tiên lượng của Y. (kí hiệu ÿ)là: 
Ÿ}=a+b, 


và phẩn dư là: 
s=Ÿ-Ÿ 


)“h 


Phương pháp ước tính a và b dựa vào nguyên lí bình phương nhỏ nhất (least 
squares), tức là tìm a và b sao cho tổng bình phương của e, là thấp nhất. Hàm cơ 
bản để ước tính hai tham số trên là *1m“ (linear model), với y là biến phụ thuộc 
và + là biến tiên lượng: 

1m(y ~ x) 





Câu hỏi 11.1 Phân tích tương quan. Dữ liệu dưới đây trích từ một 
nghiên cứu ở Việt Nam. Các nhà nghiên cứu dùng máy DXA đo tỉ trọng mỡ 
toàn thân (pcfat, %), mật độ xương (bmd, g/cm)), và trọng lượng (weight, kg) 
của 32 phụ nữ Việt Nam tuổi từ 50 trở lên. Hãy ước tính hệ số tương quan 
giữa trọng lượng và tỉ trọng mỡ. 











age weight pcfat bmd 


53 49 37.3 0.878 
56 53 33.8 0.798 
66 58 35.3 0.956 
78 40 30.3 0.781 


53 52 41.7 0.907 
54 52 37.7 0.856 
54 57 42.7 0.849 
58 48 34.5 0.915 
60 52 40.4 0.972 
s5 51 33.6 0.969 
59 45 31.4 1.047 
72 43 29.4 0.761 
54 51 30.7 0.754 
72 55 38.1 0.818 
57 52 34.1 0.786 
60 59 46.4 0.943 
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52 65 39.3 1.082 
60 36 21.1 0.854 
52 69 41.1 1.165 
53 63 33.0 1.102 
52 57 41.4 0.889 
74 70 34.9 0.905 
56 52 35.3 1.094 
56 52 38.3 0.903 
59 53 33.0 0.881 
67 55 37.8 0.866 
62 63 45.6 0.919 
70 40 30.7 0.741 
61 50 39.9 0.880 
70 55 39.8 0.970 
70 60 39.5 0.973 
80 45 36.2 0.798 


Đáp: Chúng ta có thể nhập dữ liệu bằng cách dùng hàm scan() như sau: 
pcfat = scan() 

37.3 33.8 35.3 30.3 41.7 37.7 42.7 34.5 40.4 33.6 31.4 
29.4 30.7 38.1 34.1 46.4 39.3 21.1 41.1 33.0 41.4 34.9 
35.3 38.3 33.0 37.8 45.6 30,7 39.9 39.8 39.5 36.2 


weight = scan() 
49 53 58 40 52 52 57 48 52 51 45 43 51 55 52 59 65 36 
69 63 57 70 52 52 53 55 63 40 50 55 60 45 


age = scan() 
53 56 66 78 53 54 54 58 60 55 59 72 54 72 57 60 52 60 
52 53 52 74 56 56 59 67 62 70 61 70 70 80 


bmd = scan() 

0.878 0.798 0.956 0.781 0.907 0.856 0.849 0.915 0.972 
0.969 1.047 0.761 0.754 0.818 0.786 0.943 1.082 0.854 
1.165 1.102 0.889 0.905 1.094 0.903 0.881 0.866 0.919 
0.741 0.880 0.970 0.973 0.798 
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Lưu trữ đữ liệu trong một data.frame tên là dat: 

dat = data.frame(age, weight, pcfat, bmd) 

Hàm cor trong R có thể dùng để ước tính hệ số tương quan Pearson, nhưng 
hàm cor. cest cung cấp nhiều thông tin hơn: 

> cor.test (dat$weight, dat$pcfat) 


Pearson"s product-moment correlation 


đata: dat§weight and đat§pcfat 
t= 4.4591, để = 30, p~value = 0.0001067 


alternative hypothesis: true correlation is not equal to 
0 


95 percent confidence interval: 
0.3624476 0.8032170 
sample estimates: 
cor 
0.6313495 


Hệ số tương quan là 0.63, và khoảng tin cậy 95% dao động từ 0.36 đến 0.80. 
Trị số P = 0.0001067 cho kiểm định giả thuyết vô hiệu rằng hệ số tương quan là 
0. Nói cách khác, với trị số P, chúng ta có thể phát biểu rằng mối tương quan giữa 
cân nặng và tỉ trọng mỡ có ý nghĩa thống kê. 

Chúng ta cũng có thể vẽ biểu đổ tương quan: 


plot (pcfat ~ weight, pch=l6, ylab=“Percent body fat”, 
xlab=”Weight”, frame=F 


abline (1m(pcfat ~ weight), col=”red”, 1wd=2) 
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Percent body fat 








3 40 45 50 55 60 65 70 


Weight 


Biểu đồ 1: Mối liên quan giữa trọng lượng và mật độ xương 
Nếu dữ liệu được xếp hạng (ranking) thay vì giá trị gốc, chúng ta cũng 
có thể ước tính hệ số tương quan Spearman, bằng cách thêm lựa chọn 
method=”spearman”. Chú ý phương pháp Spearman là phương pháp phi 
tham số, nên không có khoảng tin cậy 95%: 


> cor.test (dat§weight, dat§pcfat, method=”spearman”) 


Spearmans rank correlation rho 


đata: đdat$weight and đat$§pcfat 
S = 2258.411, p-value = 0.0004242 
alternative hypothesis: true rho is not equal to 0 
sample estimates: 
rho 


0.5860684 
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với dữ liệu tỉ trọng mỡ toàn thân (pcfat, %) và trọng lượng (weight, kg) của 


Câu hỏi 11.2 Mô hình hồi qui tuyến tính đơn biến. Tiếp tục câu hỏi 1 


32 phụ nữ Việt Nam: 


(a) hãy tìm một phương trình tuyến tính để mô tả mối tương quan giữa 
trọng lượng (biến tiên lượng) và tỉ trọng mỡ (biến phụ thuộc); 


(b) kiểm tra giả định của mô hình tiên lượng; 





(c) diễn giải ý nghĩa của mô hình. 





Đáp: Mô hình hồi qui tuyến tính dùng cân nặng để tiên lượng tỉ trọng mỡ 


có thể viết như sau: 


pcfat = a + b*weight 
(a) Chúng ta sẽ dùng hàm Im để ước tính hai tham số a và b: 
m = Im(dat§pcfat ~ dat§weight) 
hoặc (nhớ rằng tên của data.frame được đặt là dat): 
m = lm(pcfat ~ weight, data=dati 
summary (m) 


kết quả của phân tích như sau: 


>_ sunnary (m) 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 14.53858 4.95190 2.936 0.006328 ** 
weight 0.41073 0.09211 4.459 0.000107 *** 


Signif. codes: 0 ***** 0.001 **** 0.01 *** 0.05 *.' 0.1 9° 1 


Residual standard error: 4.079 on 30 degrees of freedom 
Multiple R-squared: 0.3986, Adjusted R-squared: 0.3786 
F~statistic: 19.88 on 1 and 30 DF, p-value: 0.0001067 


Qua kết quả trên, chúng ta có phương trình tiên lượng tỉ trọng mỡ: 


pcfat = 15.54 + 0.41xweight 
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(b) Mô hình trên chỉ có giá trị nếu đáp ứng 3 giả định chính là phần dư phải 
tuân theo luật phân bố chuẩn, độc lập, và phương sai bất biến. Để kiểm tra các 
giả định này, chúng ta cần tính phần dư (residuals) của mô hình như sau: 

m = 1m(dat$pcfat ~ dat$weight) 

# tính giá trị tiên lượng dùng hàm predict 

pred = predict (m) 


# tính phần dư, tức hiệu số giữa giá trị quan sát và tiên lượng (pcfat - predict) 
bằng hàm resid: 

res = resid(m) 

# kiểm tra phân bố chuẩn bằng qqnorm và qqline (biểu đồ bên trái) 

qgnorm(res, pch=16) 

qqline (res, col=”red”) 

# kiểm tra phương sai bằng cách vẽ res và predict (biểu đồ bên phải) 

plot(res ~ pred, pch=16) 


Normal Q-QPlot 


Sample Quantiles 














Theoretical Quantiles pred 


Nhìn qua hai biểu đổ trên, có thể thấy rằng phân bố của phần dư tuân theo 
luật phân bố chuẩn vì các giá trị quan sát gần hay nằm trên đường kì vọng (màu 
đỏ) (hình bên trái). Ngoài ra, hình bên phải cho thấy không có một mối liên 
quan nào giữa phần dư (res) và giá trị tiên lượng (pred), và điểu này chỉ ra 
rằng phương sai của pcfat không thay đổi theo giá trị của cân nặng. Mô hình hồi 
qui tuyến tính, do đó, có vẻ hợp lí. 
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{(c) Chúng ta có thể diễn giải phương trình pcfat = 15.54 + 0.41*weight như 
sau: phụ nữ có cân nặng tăng 1 kg có tỉ trọng mỡ gia tăng 0.41%, và mối liên 
quan này có ý nghĩa thống kê (P = 0.001). Một diễn giải khác là dựa vào hệ số xác 
định (R? Multiple R-squared trong bảng output trên). Giá trị R? = 0.40 có nghĩa 
là những khác biệt về trọng lượng giải thích 40% những khác biệt về tỉ trọng mỡ 
giữa các phụ nữ. 

Chúng ta cũng có thể thể hiện các biểu đồ kiểm tra giả định và giá trị ngoại 
vi bằng hàm autoplot trong chương trình ggforti£y: 

# m = 1m(dat$pcfat ~ dat$weight) 
1ibrary (ggforti£y) 


autoplot (m) 


hoặc vẽ 6 biểu đồ kiểm tra giả định và thêm màu: 


autoplot(m, which=l:6, ncol=3, label.colour=“red“, 
ad.colour=“red”) 
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Câu hỏi 11.3 Mô hình hồi qui tuyến tính robust. Trong Câu hỏi 1 và 
2 trên, chú ý một phụ nữ có trọng lượng rất thấp (36 kg) và mật độ xương 
cũng thấp nhất (xem biểu đồ 1). Có thể xem trường hợp này là giá trị ngoại 
vi (outlier). Hãy kiểm định giá trị ngoại vi của mô hình, và nếu cần, ứng dụng 
mô hình hồi qui robust để giải quyết vấn để. 











Đáp: Mô hình hồi qui tuyến tính pcfat = 15.54 + 0.41*weight có nghĩa là nếu 
chúng ta biết giá trị của trọng lượng, chúng ta có thể tiên lượng tỉ trọng mỡ toàn 
thân. Do đó, “pcfat” trong phương trình này có thể xem là giá trị tiên lượng, hay. 
giá trị trung bình của tỉ trọng mỡ cho mỗi trọng lượng. Chẳng hạn như nếu một 
phụ nữ cân nặng 50 kg, chúng ta có thể tiên đoán rằng tỉ trọng mỡ trung bình 
là 36%; một phụ nữ cân nặng 60 kg có tỉ trọng mỡ trung bình là 40 kg, v.v. Do 
đó, phần dư (residual, e,) là hiệu số giữa giá trị quan sát (kí hiệu y,) và giá trị tiên 
lượng (ÿ,) cho mỗi cá nhân ¡: 
l8, 

Chúng ta có thể hoán chuyển e, sang đơn vị z để phần dư có giá trị trung bình 
là 0 và độ lệch chuẩn là 1. Khi e được hoán chuyển như thế, nó được gọi là phần 


dư chuẩn hoá (standardized residual). Trong R, có thể dùng hàm rstandardl 
để tính phần dư chuẩn hoá như sau: 





# viết lại mô hình hồi qui tuyến tính 
m = 1m(dat$pcfat ~ dat§weight) 





# tính giá trị tiên lượng và gắn vào data.frame dat: 

đat§pred = predict (m) 

# tính toán phần dư chuyển hoá và gắn vào data.frame dat: 

dat§st.res = rstandard(m) 

Có thể xác định đối tượng nào có giá trị phần dư chuẩn hoá cao/thấp hơn 
2 (tương đương 2 độ lệch chuẩn, tạm xem là ngưỡng để định nghĩa giá trị ngoại 
vi). Chú ý 1.96 là giá trị xác định 95% của dữ liệu. 

threshold = 2 

outliers = dat[abs(dat$st.res) > threshold, ] 








> outliers 


age weight pcfat  bmd st.res 
18 60 36 21.1 0.854 -2.229438 
22 74 70 34.9 0.905 -2.265147 
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Kết quả trên cho thấy có 2 phụ nữ có giá trị ngoại vi, với phần dư chuẩn hoá 
cao hơn 2, và hai cá nhân này có thể xem là “ngoại vi Giá trị tiên lượng tỉ trọng 
mỡ của người phụ nữ có cân nặng 36 kg là 15.54+0.41*36 = 30.3%, nhưng trong 
thực tế tỉ trọng mỡ của đối tượng này là 21.1%, tức là thấp hơn thực tế đến 2.2 
độ lệch chuẩn. Tương tự, giá trị tiên lượng tỉ trọng mỡ cho người phụ nữ có cân 
nặng 70 kg là 44.2%, nhưng giá trị quan sát của chị này là 34.9%, và giá trị quan 
sát này cũng thấp hơn giá trị tiên lượng khoảng 2.3 độ lệch chuẩn. 





Trong điều kiện có giá trị ngoại vi, các tham số của mô hình có thể bị ảnh 
hưởng. Một cách khắc phục tình trạng này là dùng mô hình hồi qui robust. Về 
nguyên tắc mô hình hồi qui robust sẽ sử dụng thêm trọng số (được tính cho từng 
giá trị quan sát, tùy thuộc vào mức độ đao động) để xây dựng mô hình. Trong R 
có hàm r1m. (package MASS) có thể dùng để ước tính tham số: 

1ibrary (MASS) 

mi = rlm(dat§pcfat ~ dat$weight) 

summary (m1) 


> summary (m1) 


Coefficients: 

Value $Std. Error t value 
(Intercept) 14.1918 4.9302 2.8786 
đat§welght 0.4211 0.0917 4.5922 


Residual standard error: 3.843 on 30 degrees of freedom 


Kết quả của mô hình hồi qui robust là: 

pcfat = 14.2 + 0.42*weight 
So sánh với mô hình hồi qui bình thường: 

pcfat = 15.54 + 0.41*weighL 


không khác nhau đáng kể. Hai mô hình này sẽ khác nhau nhiều hơn trong 
trường hợp đữ liệu có nhiều giá trị ngoại vi. 
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Câu hỏi 11.4 Mô hình hồi qui tuyến tính đa thức (polynomial 
regression). Trong nghiên cứu về xương (dữ liệu *bone  data.csv”), 
hãy mô tả mối liên quan giữa mật độ xương ở xương cột sống (1sbmd) và 
độ tuổi. 











Đáp: Cách mô tả mối liên quan giữa hai biến đơn giản nhất là liên quan 
tuyến tính, và có thể dùng phân tích tương quan (như cor.test trong R). 
Nhưng chúng ta cần phải xem xét mối liên quan trong câu hỏi bằng biểu đổ, vì 
có thể mối liên quan không phải là tuyến tính. 


Nếu chúng ta dùng 
plot (bone$1sbmd ~ bone$age) 


thì sẽ không thấy rõ mối liên quan. Nhưng dùng ggplot thì sẽ rõ ràng hơn: 


P = ggplot(data=bone, aes(x=age, y=lsbmd)) 
P + geom point() + geom smooth() 


kbmd 





Biểu đồ trên cho thấy rõ ràng rằng mối liên quan giữa độ tuổi và mật độ 
xương không phải tuyến tính, mà có thể là một mối liên quan theo hàm số đa 
thức bậc 3, với các tham số cho tuổi, tuổi bình phương, và tuổi lũy thừa 3: 
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Isbmd = a + b*age + c*age^2 + d*age^3 
chúng ta thử triển khai mô hình trên qua R như sau: 
m = 1m(1sbmd ~ age + I(age^2) + I(age^3), data=bone) 
summa ry (m) 


Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 5.386e-01 9.620e-02 5.599 3.43e-08 *+* 


age 3.241e-02 7.237e-03 4.478 9.17e-06 *** 
1(age^2) -71.097e-04 1.630e-04 -4.355 1.59e-05 *** 
T(age^3) 4.110e-06 1.127e-06 3.648 0.000289 *** 


Signif. codes: 0 \***“ 0.001 **** 0,01 *** 0,05 *,' 0,1 #1 


Residual standard error: 0.1303 on 546 degrees of freedom 
Multiple R-squared: 0.2922, Adjusted R-squared: 0.2883 


Kết quả trên có nghĩa là mô hình để mồ tả mối liên quan giữa độ tuổi và mật 
độ xương là: 
lsbmd = 0.538 + 0.032*age - 0.*0007age^2 + 0.00000411*age^3 


và mô hình này giải thích 29% những khác biệt giữa các cá nhân về mật độ 
xương. 

Mô hình trên có thể thể hiện qua biểu đổ với chương trình vi sreg : 

1ibrary(visreg) 

m = 1m(l1sbmd ~ age + I(age^2) + I(age^3), data=bone) 

visreg (m) 
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Câu hỏi 11.5 Mô hình hồi qui tuyến tính với biến phân nhóm. Trong 
nghiên cứu về xương (dữ liệu *bone  data.csv”), hãy so sánh mật độ 
xương ở xương cột sống (tên biến là 1 sbmd) giữa nam và nữ bằng mô hình 
hồi qui tuyến tính. 











Đáp: Câu hỏi này có thể giải đáp bằng phương pháp kiểm định t. Chúng ta 
đọc dữ liệu vào R và gọi đối tượng là bone, và dùng hàm t.test như sau: 

bone = read.csv(*bone data.csv”) 

t.test (bone$lsbmd ~ bone$sex) 

và kết quả sẽ cho thấy sự khác biệt về Isbmd giữa nam và nữ có ý nghĩa 
thống kê (P = 0.0002), với khoảng tin cậy 95% (nữ - nam) dao động từ -0.076 
đến -0.024 g/cm°. 

Tuy nhiên, phương pháp kiểm định t cung cấp ít thông tin hơn mô hình hồi 
qui tuyến tính. Do vậy, chúng ta cũng có thể kiểm định giả thuyết bằng mô hình 
hồi qui tuyến tính. Mô hình có thể phát biểu là: 

193 —_ 


'lpe/fielun heploerg 


Isbmd = a + b*sex 
và triển khai bằng R: 
m = 1m(lsbmd ~ sex, data=bone) 
summa ry (m) 


với kết quả như sau: 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 0.868784 0.007994 108.675 < 2e-1l6 *** 
sexM 0.049908 0.013784 3.621 0.000321 *** 


Signif, codes: 0 ***** 0,001 **** 0,01 *** 0,05 *,° 0,1 \ 1 


Residual standard error: 0.1527 on 548 degrees of freedom 
Multiple R-squared: 0.02336, Adjusted R-squared: 0.02158 


Chú ý đầu ra của kết quả trên có biến “sexM” có nghĩa là giá trị của nam. 
được so sánh với nữ. Nói cách khác, giá trị của nữ được xem là tham chiếu (bằng 
0). Do đó, tham số sexM = 0.0499 có nghĩa là nam có mật độ xương cao hơn nữ 
0.05 g/cm), và kết quả này có ý nghĩa thống kê (P = 0.0003). 

Ngoài ra, kết quả trên cũng cho chúng ta biết rằng yếu tố giới tính giải thích 
khoảng 2% (R = 0.023) những khác biệt về mật độ xương giữa các cá nhân trong 
quần thể. 


Chúng ta có thể hình dung bằng biểu đổ qua chương trình “vi sreg” như: 
SAU: 


1ibrary (visreg) 
m = lm(lsbmd ~ sex, data=bone) 
visreg (m, xlab=”Sex”, ylab=”Lumbar spine BMD”} 
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Lumia spine BMD. 
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Câu hỏi 11.6 Mô hình hồi qui tuyến tính với 2 biến tiên lượng. Trong 
phân tích trên, giới tính có ảnh hưởng đến mật độ xương. Nhưng trọng 
lượng cơ thể có thể có liên quan với mật độ xương. Hãy đánh giá mức độ ảnh 
hưởng của trọng lượng và giới tính đến mật độ xương. 











Đáp: Chúng ta có thể áp dụng mô hình hồi qui tuyến tính giải đáp câu hỏi 
này. Mô hình hồi qui tuyến tính đơn giản nhất là: 
fnbmd = a + b*weight + c*sex, 
trong đó, weight là trọng lượng và sex là giới tính (chỉ có 2 giá trị *M” và 
*E”). Đây là một đạng của mô hình hồi qui tuyến tính đa biến. Chúng ta có thể 
ước tính các tham số a, b và c của mô hình trên bằng R như sau: 
m = 1m(lsbmd ~ weight + sex, data=bone) 
summary (m) 
với kết quả: 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 0.5200557 0.0396381 13.120 <2e-16 *** 
weight 0.0066841 0.0007461 8.958 <2e-16 *** 
sexM -0.0108835  0.0145617 -0.747 0.455 
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Signif. codes: 0 ***** 0.001 ***“ 0.01 *** 0.05 *.' 0.1 9° 1 


Residual standard error: 0.1428 on 547 degrees of freedom 


Multiple R-squared: 0.1483, Adjusted R-squared: 0.1452 
Kết quả trên rất thú vị! Chúng ta thấy người có trọng lượng cơ thể cao lên 
1 kg thì người đó có mật độ xương tăng 0.0067 g/cmỶ, và mối liên quan này có 
ý nghĩa thống kê (P < 0.0001). Tuy nhiên, yếu tố giới tính (sex) thì không có ý: 
nghĩa thống kê nữa (P = 0.455). Kết quả này có thể được giải thích như sau: 
5 Trong cùng một giới tính, người có trọng lượng cơ thể gia tăng mỗi 1 kg 
sẽ có mật độ xương tăng 0.0067 g/cm”; 
« _ Ở cùng một cân nặng, không có mối liên quan có ý nghĩa thống kê giữa 
giới tính và mật độ xương. 





Tại sao ở trên, gị nh có ý nghĩa thống kê, còn khi có trọng lượng trong 
mô hình thì giới tính không còn là yếu tố có ý nghĩa thống kê? Kết quả trên cho 
chúng ta biết rằng sự khác biệt về mật độ xương mà chúng ta quan sát trong Câu 
hỏi 11,5 là đo trọng lượng. Nói cách khác, vì nam có trọng lượng cao hơn nữ, 
và vì trọng lượng có liên quan mật thiết đến mật độ xương, nên sau khi đã hiệu 
chỉnh cho trọng lượng thì sự khác biệt giữa nam và nữ không đáng kể. Một 
cách hiểu khác nữa là nếu nam và nữ có cùng cân nặng (ví dụ như 65 kg) thì mật 
độ xương ở nam không khác đáng kể so với nữ. 


Chúng ta có thể hình dung bằng biểu đồ qua chương trình *visreg”“ 
như sau: 


m = 1m(lsbmd ~ weight + sex, data=bone) 


par (m£row=c (1,2) ) 


visreg(m, *weight”, xlab=”Weight”, ylab=“Lumbar spine 
BMD”) 


visreg(m, *sex”, xlab=“Weight”, ylab=”Lumbar spine BMD”) 
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Lumbar spine BMD. 
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Về báo cáo kết quả, chúng ta có thể dùng s3jt. 1m trong chương trình 
sjP1ot và sjmisc để trình bày báo cáo phần output trên: 
l1ibrary(sjPlot); l1ibrary(sjmisc) 


# m = 1m(lsbmd ~ weight + sex, data=bone) 


si£.. 1m (m) 


Kết quả của hàm trên là bảng số liệu như sau: 




















| Isbmd 

EsmT sa p 
(Intercept) | 052 | 0.44-0.60 <.001 
weight 001 (001-001 <001 
sex (M) | -0.01 | -0.04-0.02 455 
Observations | | 550 
RẺ/ adj.R .148/.14 
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Câu hỏi 11.7 Mô hình hồi qui tuyến tính đa biến và tương tác 
(interaction). Có lí thuyết cho rằng mật độ xương (xương cột sống) ở nữ 
giảm theo độ tuổi nhanh hơn nam. Hãy kiểm định giả thuyết. 











Đáp: Nếu mối liên quan giữa độ tuổi và mật độ xương giữa nam và nữ 

không khác nhau, chúng ta kì vọng rằng mô hình 
lsbmd =a + b*age + c*sex 
sẽ không khác với mô hình có yếu tố tương tác: 
Isbmd = a + b*age + c*sex + đ”age*sex 

Do đó, để kiểm định giả thuyết trên, chúng ta thử phân tích bằng mô hình. 
có yếu tố tương tác. Và, mô hình này sẽ được sử dụng trừ khi không có bằng 
chứng về mối liên quan giữa yếu tố tương tác với kết cục (tức P của yếu tố tương 
tác > 0.05): 

m = Im(lsbmd ~ sex + age + sex:age, data=bone) 


sua ry (m) 


Chú ý cách viết lệnh trong hàm trên có "sex:age” có nghĩa là sex*age, hay 
tương tác giữa sex và age. Kết quả phân tích trên cho thấy như sau: 
Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 1.1341555 0.0218131 51.994 < 2e-l6 *** 


sexM ~0.1336063 0.0339140 -3.940 9.22e-05 ***+ 
age -0.0055336 0.0004311 -12.837 < 2e-16 *** 
sexM:age 0.0036506 0.0007015 5.204 2.76e-07 *** 


Signif. codes: 0 \**** 0.001 **** 0.01 *** 0.05 *,' 0.1 *\ 1 


Residual standard error: 0.133 on 546 degrees of freedom 
Multiple R-squared: 0.2618, Adjusted R-squared: 0.2578 


Kết quả có thể trình bày “gọn” hơn qua hàm sjt . 1m (m) như sau: 
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¡ lsbmd 

js ja p 
(Intercept) (143 | 109-118 <001 
sexM | ~0.13 | -0.20—0.07 <.001 
age [001 |-001-000 | <001 
sexM:age 000 (000-001 <001 
Observations 550 
RỲ/ adj. RẺ -262/.258 





Giá trị P của yếu tố tương tác sexM:age= 0.000000276 (tức P < 0.05) cho 
thấy có mối tương tác giữa giới tính và tuổi trong mối liên quan với mật độ 
xương. Nói cách khác là mối liên quan giữa tuổi và mật độ xương ở nữ sẽ khác 


với ở nam, hay cẩn phải có mô hình riêng biệt cho từng giới tính. 


Mô hình trên có thể viết như sau: 


lsbmd = 1.13 - 0.133*(sex=M) - 0.0055*age + 0.00365*age*(sex=M) 


Thật ra, có hai mô hình trong phương trình trên. Mô hình cho nam giới là: 


Isbmd = 1.13 - 0.133 - 0.0055*age + 0.00365*age 
Isbmd = 0.997 - 0.00185*age 


và mô hình cho nữ giới: 
lsbmd = 1.13 - 0.0055*age 


Nói cách khác, mô hình trên cho biết “tốc độ” suy giảm mật độ xương theo. 
tuổi ở nữ giới là 0.0055 g/cm mỗi năm, cao hơn so với nam giới là 0.00185 g/ 
cm? mỗi năm (khác biệt là 0.00365 g/cm), chính là slop của yếu tố tương tác 
age* (sex=M) trong mô hình chung). Kết quả này nhất quán với lí thuyết về 
chuyển hóa xương giữa nam và nữ. 


Một cách để hình dung mối liên hệ này là dùng biểu đồ như sau: 


1ibrary (ggplot2) 


P = ggplot(data=bone, aes (x=age, 


y=lsbmd, color=sex)) 


P + geom point() + geom smooth (method=lm) 
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Câu hỏi 11.8 Mô hình hồi qui tuyến tính đa biến. Theo lí thuyết, mật 
độ xương ở cổ xương đùi là do tác động của giới tính, độ tuổi, lượng cơ và 


lượng mỡ toàn thân. Hãy xây dựng một mô hình hồi qui tuyến tính để kiểm 
định giả thuyết này. 











Đáp: Mô hình để kiểm định giả thuyết trên là: 
fnbmd = a + b*sex + c*age + đ*lean mass + e*fat mass 


Chúng ta có thể dùng R để ước tính các tham số a, b, c, d, và e của mô hình 
trên như sau: 


m = 1m(fnbmd ~ sex + age + lean.mass + fat.mass, 
data=bone) 


Summa r ÿ (m) 


Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 0.5762005 0.0346267 16.640 


< 2e-16 *** 
sexM 0.0449174 0.0171992 -2.612 


0.00926 ** 


'lpe/fielun heploerg 


age -0.0047523 0.0002598 -18.292 < 2e-l6 *** 
1ean.,mass 0.0089684 0.0011386 7.877 1.83e-14 *x** 
fat.mass 0.0020562 0.0010033 2.049 0.04090 * 


Signif. codes: Ú 92+ 0.001 Y**7 0,01 **“2 0,05 *.° 0,1 Y1 


Residual standard error: 0.09484 on 545 degrees of freedom 


Multiple R-squared: 0.5399, Adjusted R-squared: 0.5365 
Như vậy, mô hình hồi qui tuyến tính để ước tính mật độ xương là: 

fnbmd = 0.576 + 0.045*(sex = M) - 0.0047*age + 0.0089*lean mass + 0.002*fat mass 
Tất cả các yếu tố (giới tính, độ tuổi, lượng cơ và lượng mỡ) đều có ý nghĩa 


thống kê (tức P < 0.05). Mô hình trên “giải thích” khoảng 54% các khác biệt về 
mật độ xương giữa các cá nhân. 

Về báo cáo kết quả, chúng ta có thể dùng hàm s3jp. 1m() trong chương 
trình sjP1ot và sjmise để trình bày báo cáo phần output trên: 

1ibrary(sjPlot); 1ibrary(simisc) 

# m = lm(fnbmd ~ sex + age + lean.mass + fat.mass, 


data=bone) 
sập. 1m (m) 
fnbmd 
001199 
lean,mass~ ;.® 
000% 
Etmass- ° 
-000** 
sge- ° 
-004** h 
sex(M)~ —†>*——— 
, l ñ ụ Ụ 
h -a0s Ũ 00s ø 
Estimates 
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Ngoài ra, chúng ta cũng có thể thể hiện mối liên quan cho từng biến tiên 
lượng như sau: 
sip.Im(m, type=”ef£”) 


Marginal effects of model predictors 
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Câu hỏi 11.9 Đánh giá tầm quan trọng của biến tiên lượng. Tiếp tục 
câu hỏi 11.8, hãy đánh giá, trong các biến tiên lượng có ý nghĩa thống kê 
trên, tầm quan trọng của các biến số đến mật độ xương. 











Đáp: Đánh giá tầm quan trọng của một hay nhiều biến tiên lượng trong 
mô hình hồi qui tuyến tính đa biến là việc không để dàng. Các hệ số hồi qui 
không thể nói lên tầm quan trọng vì các biến tiên lượng có các đơn vị đo lường 
khác nhau. Chẳng hạn như age là tính theo tuổi, trong khi lean.mass là tính theo. 
tính lại là biến phân loại nên hệ số của các biến này không thể 





kilogram, và gi 
dùng để so sánh tẩm quan trọng. Một cách để đánh giá tầm quan trọng là phân 
tách chỉ số R? cho từng biến bằng cách dùng phương pháp tái chọn mẫu. Phương 
pháp này được triển khai trong package “relaimpo” (do nhóm của Gs Ulrike 
Groempings) phát triển. 

# Trước hết, định nghĩa mô hình cẩn phân tích: 

m = lm(fnbmd ~ sex + age + lean.mass + fat.mass, 

data=bone) 


202_ 
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# Gọi chương trình relaimpo và xác định chỉ số RẺ. 
1ibrary (relaimpo) 

calc. relimp (m) 

Kết quả: 


Relative importance metrics: 


1mg 
sex 0.03640702 
age 0.34943862 


lean.mass 0.14066263 
fat.mass 0.01340914 


Average coefficients for different model sizes: 


1X 2xXs 3Xs 4Xs 
sex 0.070504110 0.016566399 ~0.039301370 ~0.044917381 
age ~0.005264186 -0.005103009 ~0.004973677 ~0.004752285 


lean.mass 0.009215384 0.009830595 0.010844998 0.008968441 
fat.mass 0.001447395 0.003022377 0.002233123 0.002056202 


relaimp chia kết quả phân tích thành 2 nhóm chính: phân tách chỉ số R? 
cho từng biến tiên lượng và hệ số hồi qui (tham số) cho từng biến số với điểu kiện 
1X (tức không hiệu chỉnh cho bất cứ yếu tố nào khác), 2X (hiệu chỉnh cho một 
biến khác), 3X (hiệu chỉnh cho 2 biến khác), v.v. Kết quả trên (phần "lmg”) cho 
thấy độ tuổi có mức độ ảnh hưởng cao nhất (giải thích gần 35% khác biệt về mật 
độ xương), kế đến là lượng cơ (R° = 14%). Hai yếu tố khác (giới tính và lượng mỡ) 
cũng có ảnh hưởng, nhưng mức độ không bằng hai yếu tố độ tuổi và lượng cơ. 





Câu hỏi 11.10 Tìm biến liên quan trong mô hình hồi qui tuyến tính 
đa biến (model selection hay feature selection). Trong dữ liệu nghiên cứu 
về xương, tất cả các biến như độ tuổi, trọng lượng, lượng cơ, lượng mỡ, 
estradiol, testosterone, v.v. đều có thể là “ứng viên” để tiên lượng mật độ 
xương. Hãy dùng một phương pháp nhận dạng các yếu tố có liên quan đến 
mật độ xương. 











Đáp: Phương pháp phổ biến nhất để giải quyết yêu cầu trên là phương 
“stepwise regression” (hổi qui từng bước), nhưng phương pháp này thường cho 
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ra kết quả sai với mô hình cuối cùng thường bao gồm một số biến không quan 
trọng (tức đương tính giả). Một trong những phương pháp “hiện đại” và có xác 
suất sai sót thấp là “Bayesian Model Averaging” hay BMA. Phương pháp BMA 
dựa trên nguyên lí thống kê trường phái Bayes, và mỗi mô hình có một xác suất 
tiền định, cộng với đữ liệu thực tế, chúng ta có thể biết được biến nào có liên 
quan đến mật độ xương. Phương pháp BMA được triển khai trong chương trình 
BMA trong R. 

# Định nghĩa biến X và Y 

xvars = bone[, c(*age”, *sex”, "lean.mass”, *fat.mass”, 

"pginp”, "xlaps”, "estradiol”, *testo”, "*vitd”)] 


yvar = bone[, c(*fnbmd”) ] 


# Gọi chương trình BMA 
1ibrary (BMA) 


s = bicreg(xvars, yvar, strict=FALSE, OR=20) 

summary (8) 

imageplot . bma (s) 

Khác với stepwise chỉ cho một mô hình "cuối cùng” kết quả phân tích BMA. 
trình bày 5 mô hình tốt nhất (model 1, model 2, v.v.). Người nghiên cứu có cơ 
hội chọn lựa mô hình “tốt nhất” tùy thuộc vào khả năng triển khai vào hoàn 
cảnh thực tế và tính khả thi/linh hoạt của mô hình. Mỗi mô hình, BMA báo cáo 
hệ số hồi qui của mỗi biến tiên lượng, hệ số RẺ, giá trị BIC (Bayesian Information 
Criterion) và xác suất hậu định (post prob). 

Call: 

bicreg(x = xvars, y = yvar, strict = FALSE, OR = 20) 


4  models were selected 
Best 4 models (cumulative posterior probability = 1 ): 


pl=0 EV sÐ model 1 model 2 
Intercept 100.0 5.943e-01 4.079e-02 5.844e-01 5.960e-01 
age 100.0 -4.628e-03 2.771e-04 -4.570e-03 -4.720e-03 
sexM 85.4 -5.037e-02 2.548e-02 -6.259e-02 -4.289e-02 
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lean.mass 100.0 9.654e-03 1.577e-03 1.036e-02  9.132e-03 


fat.mass 29.6 7.734e-04 1.357e-03 : 1.842e~03 

pinp. 0.0 0.000e+00 0.000e+00 _ : 

xlaps 100.0 -9.307e-05 2.579e-05 ~9.394e-05 ~9.104e-05 

estradiol 7.6  4.814e-06 2.074e-05 

testo 0.0 0.000e+00 0.000e+00 

vitd 0.0 0.000e+00 0.000e+00 

nVar 4 5 

r2 0.547 0.550 

BIC ~4.108e+02_ =4.080e+02 

post prob 0.628 0.150 
model 3 model 4 

Intercept  6.483e-01  5.691e-01 

age -4.876e-03 -4.443e-03 

sexM ~6.086e~02 


1ean.mass 6.725e-03 1.047e~02 
fat.mass 3.407e-03 


pinp ề ẩ 
xlaps ~9.322e-05_ -8.952e-05 
estradiol h 6.347e-05 
testo 

vitd 

nVar 4 5 

r2 0.545 0.549 

BIC -4.079e+02_ -4.066e+02 
post prob 0.146 0.076 


Kết quả trên báo cho chúng ta biết có 4 mô hình khả đi. Mô hình gợi ý tốt 
nhất (theo xác xuất hậu định và BIC) là mô hình 1, kế đến là mô hình 2, mô hình 
3, và mô hình 4. 


Chúng ta tập trung vào mô hình 1, gồm có 4 yếu tố: age, sex, lean.mass 
và xÏaps (một marker chu chuyển xương). Mô hình này giải thích khoảng 55% 
(r? = 0.547) phương sai của mật độ xương. Mô hình này có xác suất hậu định cao. 
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Models selected by BMA 


Model 





`1. 





tuyến tính đơn biến và đa biến. Chú ý rằng biến phụ thuộc của mô hình 

hổi qui tuyến tính là biến liên tục. Nhưng trong nhiều nghiên cứu, biến 
phụ thuộc thường chỉ có 2 giá trị (nhị phân), như 0/1, có/không, sống/chết, v.v. 
Đối với các trường hợp biến phụ thuộc là nhị phân, mô hình hồi qui tuyến tính 
không thể áp dụng được, mà phải áp dụng mô hình hồi qui logistic (hay còn gọi 
là “logistic regression”). 


Để hiểu mô hình hồi qui logistic, chúng ta cần biết đến khái niệm odd. 
Khái niệm odds rất đặc thù ở người trong văn hóa Anh, do đó rất khó dịch sang 
tiếng nước ngoài. Giả dụ rằng chúng ta quan sát một nhóm gồm 100 bệnh nhân 
trong một thời gian 5 năm, và trong thời gian đó, có 10 người bị gãy xương. 
Chúng ta có thể dùng kí hiệu cỡ mẫu là N = 100 và số biến cố lâm sàng xảy ra 
là x= 10. Với hai số này, chúng ta có thể ước tính xác suất gãy xương trong thời 
gian đó là: 


T rong Chương I1, chúng ta đã điểm qua một số ứng dụng mô hình hồi qui 


P=*=- 2 =g10 
wW 100 
Khái niệm odds được định nghĩa là tỉ số của xác suất biến cố xảy ra trên xác 
suất biến không/chưa xảy ra. Gọi odds là O, chúng ta có: 
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=- =1 0) 
N-—x 90 





Như vậy, chúng ta có thể thấy giá trị của xác suất dao động trong khoảng 0 
đến 1, nhưng giá trị của odds thì không có giới hạn và là một biến liên tục. 

Một khái niệm liên quan đến odds là logit. Logit của một biến cố được định 
nghĩa là log của odds: 


logit(P)= s(TS>) =log(od4s) 


Mô hình hồi qui logistic có biến phụ thuộc là logit(P). Do đó, nếu chúng ta 
muốn mô hình mối liên quan giữa nguy cơ gãy xương và độ tuổi (age), chúng ta 
có thể viết mô hình hồi qui logistic như sau: 


logiL(P)= œ+/8xage 


Bởi vì, logit(P) = tr =) nên phương trình trên cũng có thể viết lại theo 
Pnhư sau: _ 


—_ep(œ+Øxage) 
_ I*exp(+ /đxage) 


Trong mô hình trên, nếu chúng ta lấy exp(§) thì sẽ có tỉ số øđds (hay odds 
ratio) nổi tiếng. 

Tham số a và § có thể ước tính bằng phương pháp tối đa khả dĩ (maximum 
likelihood). Phương pháp này được triển khai trong R qua hàm g1m hay qua 
chương trình *zms”, 

Với gÌm, chúng ta có thể viết: 

glm(y ~ x, family=binomial) 

Chú ý rằng chúng ta phải báo cho R biết rằng phân bố của y là biến tuân 
theo phân bố nhị thức (family = binomial). Để tính toán tỉ số odds, chúng ta 
dùng hàm logistic.display trong chương trình edpiDisplay: 

1ibrary (edpiDisplay) 
m = g1m(y ~ x„ family=binomial) 


1ogistic.display (m) 
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Với rms, chúng ta dùng hàm 1 rm (viết tắt của logistic regression model): 
1ibrary (zme) 
lrm(y ~ x) 

§o với hàm gÌm thì lrm có nhiều thông tin hơn. Hàm lrm cung cấp những 
thông tin liên quan đến sự thích hợp của mô hình hồi qui logistic, như chỉ số c 
(tương đương với diện tích dưới đường biểu diễn ROC) và các chỉ số liên quan 
đến RẺ. 

Mô hình hồi qui logistic có một lịch sử khá phong phú, bắt đầu từ thế kỉ 19. 
Pierre Francois Verhulst (một học trò của Alphonse Quetelet) có lẽ là người đầu 
tiên để cập đến hàm số logistic để mô tả sự tăng trưởng dân số. Kể từ đó, nhất là 
từ thế kỉ 20, qua những phát triển và sáng kiến của nhà thống kê học David R. 
Cox, mô hình hồi qui logistic được ứng dụng rộng rãi trong nghiên cứu y khoa 
và khoa học xã hội. Trong nghiên cứu y khoa, mô hình hồi qui logistic thường 
được ứng dụng để thẩm định mối liên hệ giữa một yếu tố nguy cơ (hay biến 
tiên lượng) và một biến “outcome” (thường là bệnh lí). Thoạt đầu, mô hình hồi 
qui logistic được ứng dụng trong các nghiên cứu bệnh chứng, nhưng vì những 
đặc tính độc đáo, mô hình sau này được ứng dụng cho các mô hình nghiên cứu 
cắt ngang, nghiên cứu đoàn hệ, và nghiên cứu lâm sàng đối chứng ngẫu nhiên 
(randomized controlled trial). 





Câu hỏi 12.1 Ước tính tỉ số odds trong nghiên cứu bệnh chứng. Tiếp 
tục câu hỏi 9.7 về mối liên quan giữa phơi nhiễm chất độc da cam (AO) và 
ung thư tiển liệt tuyến. Hãy phân tích dữ liệu trong bảng dưới đây bằng mô 
hình hồi qui logistic và ước tính tỉ số odds (odds ratio hay OR). 

Ung thư tuyến tiền liệt Nhóm chứng 


(n=4?) (n=142) 
Phơi nhiễm AO. 1 17 
Không phơi nhiễm AO 29 106 
Không rõ T¿ 21 











Đáp: Gọi xác suất mắc bệnh ung thư tiển liệt tuyến là P, và phơi nhiễm AO. 
là x. Ở đây, x chỉ có 2 giá trị: “yes” và “nơ? hoặc có thể mã hóa là 1 và 0. Mỏ hình 
hồi qui logistic về mối liên quan giữa x và P phát biểu rằng: 


tr =) + 
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Nói cách khác, odds bị ung thư, từ phương trình, là: 


odd =~—?—=e*t+ 
1=p 
Như vậy mô hình hồi qui logistic phát biểu rằng odds của một sự kiện (ung 
thư tuyến tiển liệt) tùy thuộc vào x (tình trạng phơi nhiễm AO). Dựa vào phương 
trình, nhóm không bị phơi nhiễm (x = 0) có odds bị ung thư (gọi tắt odd,) là: 


odd, = e*!° = c# 
và nhóm từng bị phơi nhiễm (x = 1) có odds bị ung thư (odd, )là: 


odd, = e***' = e*+# 


Tỉ số của hai odds chính là odds ratio (và đó chính là lí đo tại sao tôi địch 
odás ratio là tỉ số khả năng). Tỉ số odds có thể ước tính như sau: 





Để ước tính tham số a và 8, chúng ta sẽ dùng số liệu trong bảng trên. Nhưng 
số liệu cẩn phải sắp xếp lại theo dòng để tiện cho hàm gÌm. Chúng ta sẽ tạo ra 3 
biến số để phản ảnh phơi nhiễm, bệnh lí và số bệnh nhân: 

# Trước hết tạo ra các biến số cần thiết và đưa vào một data.frame. 

AO = c(WYes”, *Yes“, *No”, "No”) 

PC = c(1, 0, 1, 0) 

nn = c(11, 17, 36, 127) 

dat = data.frame(AO, PC, nn) 


dat 
> dat 

AO PC nn 
1*Yee + 11 
2 Yes 0 17 
3 No 1 36 
4 No 0 127 
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# Sau đó, gọi hàm gÌm để phân tích: 


m = gim(PC ~ AO, weight=nn, family=binomial, data=dat) 
summary (m) 
Coefficients: 

Estimate Std. Error z2 value Pr(>|z|) 
(Intercept) 1.2607 0.1888 -6.677 2.44e-11 *** 
AOYes 0.8254 0.4306 1.917 0.0552. 
Signif. codes: 0 ****" 0.001 **** 0.01 **f 0.05 *,' 0.1 * 1 


Kết quả trên cho chúng ta một mô hình về mối liên quan giữa ung thư tiền 


liệt tuyến và phơi nhiễm AO: 
P 


s(Tˆ>) =~l.26+0.825x(AØ= yes) 


Do đó, tỉ số odds là: 


OR = exp(0.825) = 2.28 
Khoảng tin cậy 95% của OR có thể ước tính qua sai số chuẩn (0.431) như 


Sau: 


exp(0.825 - 0.431*1.96) đến exp(0.825 + 0.431*1.96) là từ 0.98 đến 5.31. 


Một cách ước tính chính xác hơn là dùng hàm 1ogistic.đisplay trong 


chương trình epiDisp1ay: 
# m = glm(PC ~ AO, weight=nn, 
1ibrary (epiDisplay) 
1ogistic.disp1ay (m) 


với kết quả như tính thủ công: 
> 1ogistie.đisp1ay (m) 


family=binomial, data=dat) 


1ogistic regression predicting PC 


OR (95$CT) 
AO: Yes vs No 2.28 (0.98,5.31) 


P(Wald”s test) P(LR-test) 


0.055 0.061 
Jin 
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Log-likelihood = -104.8231 

No. o£ observations = 4 

AIC value = 213.6462 

Kết quả trên có thể diễn giải như sau: odds mắc bệnh ung thư tiền liệt tuyến. 
ở người phơi nhiễm AO cao gấp 2.28 lần so với người không bị phơi nhiễm, với 
khoảng tin cậy 95% dao động từ 0.98 đến 5.31 (P = 0.06). 





Câu hỏi 12.2 Ước tính tỉ số odds cho một biến tiên lượng là biến phân 
loại. Trong công trình nghiên cứu về yếu tố nguy cơ liên quan đến trẻ sơ sinh 
thiếu cân (dữ liệu bwt.csv). Hãy xác định mối liên hệ giữa hút thuốc lá và 
nguy cơ sinh con thiếu cân. 











Đáp: Trong dữ liệu birthwt.csv, biến "1ow” chỉ kết quả thiếu cân 
(low = 1) hay bình thường (1ow = 0), và biến smoke chỉ bà mẹ hút thuốc lá 
(smoke = 1) hay không (smoke = 0) trong lúc mang thai. Gọi P là xác suất 
thiếu cân, chúng ta muốn mô tả mối liên quan giữa hút thuốc lá và P như sau: 


s(Tˆ>] =ø+(smoke) 
Chúng ta triển khai trong R như sau: 


# Trước hết, đọc dữ liệu vào R: 


bw = read.csv(*birthwt.csv”, header=T) 


Chúng ta thử tìm hiểu có bao nhiêu trẻ sơ sinh thiếu cân bằng hàm Desc 
trong chương trình DescTools. Kết quả cho thấy có 59 trẻ em (31%) được xem là 
thiếu cân (tức dưới 2500 gram). 


1ibrary (DescTools) 
Desc (factor (bw$1ow) ) 
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£actor (bw$low) (factor - dichotomous) 


l1ength n NAs unique 
189 189 0 2 
100.0% 0.0% 


freq perc lci.95 uci.95' 
0 130 68.8% 61.9% 75.0% 
1 59 31.2% 25.0% 38.1% 


# Ước tính tham số của hình hối qui logistic 


m = glm(low ~ smoke, family=binomial, data=bw 


summary (m) 
# Kết quả: 
Coefficients: 

Estimate Std. Error z value Pr(>|z|) 
(Intercept)  -1.0871 0.2147 -5.062 4.14e-07 *** 
smoke 0.7041 0.3196 2.203 0.0276 * 


Signif. codes: 0 '\***“ 0.001 **** 0.01 *** 0.05 *,° 0.1 9° 1 


# Tính tỉ số odds (OR) 
1ibrary (epiDisp1ay) 
1ogistic.đisp1ay (m) 


1ogistic regression predicting low 


OR(95%CT) P(Wald's test) P(LR-test 
smoke: 1 vs 0 2.02 (1.08,3.78) 0.028 0.027 
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Log-likelihood = -114.9023 

No. of observations = 189 

AIC value = 233.8046 

Chúng ta cũng có thể dùng hàm s3jp.. g1m trong chương trình sjPlot và 
sjmisc để thể hiện mối liên quan giữa smoke và 1ow: 


1ibrary(sjPlot); 1ibrary(sjmisc) 
bw$smoke = as.£factor (bw$smoke) 

m = glm(low ~ smoke, family=binomial, data=bw) 
# Vẽ biểu đồ tỉ số odds và khoảng tin cậy 95% 

sjp.glm(m, trns.ticks=F) 


low 





# Vẽ biểu đồ với giá trị tiên lượng. 
sjp.glm(m, vars=“smoke”, type=“pred”, show.ci=T, trns. 
ticks=F) 





D 1 


Kết quả trên cho thấy odds sinh con thiếu câu ở những bà mẹ hút thuốc lá 
cao gấp 2 lần so với những bà mẹ không hút thuốc lá (OR: 2.02; khoảng tin cậy 
959%, 1.08 đến 3.78). Mối liên quan giữa hút thuốc lá ở bà mẹ và sinh con thiếu. 
cân có ý nghĩa thống kê (P = 0.027). 





Câu hỏi 12.3 Ước tính tỉ số odds cho một biến tiên lượng là biến liên 
tục. Trong công trình nghiên cứu về yếu tố nguy cơ liên quan đến trẻ sơ sinh 
thiểu cân. Hãy xác định mối liên hệ giữa cân nặng của mẹ và nguy cơ sinh 
con thiếu cân. 











Đáp: Trong dữ liệu birthwt.csv, cân nặng của mẹ là biến Iwt (tính bằng 
pound). Do đó, chúng ta cần tạo ra một biến mới với đơn vị kilogram: 


Ÿ bw = read.csv(®birthwt.csv“, header=T) 


bw$§mother.wt = bw$lwt*0.453592 


ieulun hoplodrg. 


hlpei 


# Phân tích mô hình hối qui logistic 
m = gim(low ~ mother.wt, family=binomial, data=bw. 


summary (m) 


# Kết quả: 


Coefficients: 
Estimate Std. Error z value Pr(>|z|) 

(Intercept) 0.99831 0.78529 1.271 0.2036 

mother.wt  -0.03099 0.01360 -2.279 0.0227 * 


Kết quả cho thấy mỗi 5 kg tăng cân nặng thì odds sinh con thiếu cân là 
exp(-0.15) = 0.86, và khoảng tin cậy 95% dao động từ exp (=0.15- 
1.96*0.068) = 0.75 đến exp(-0.15+1.96*0.068) = 0.98. Nói 
cách khác, với mỗi 5 kg gia tăng cân nặng thì odds sinh con thiếu cân giảm 14% 
(tức 1- 0.86 = 0.14), và mối liên quan này có ý nghĩa thống kê (P = 0.023): 


m = glm(low ~ I(mether.wt/5), family=binomial, data=bw) 


sua ry (m) 


Coefficients: 

Estimate Std. Error z value Pr(>|z|) 
(Intercept) 0.99831 0.78529 1.271 0.2036 
1(mother.wt/5) -0.15497 0.06801 ~-2.279 0.0227 * 


Kết quả cho thấy mỗi 5 kg tăng cân nặng thì odds sinh con thiếu cân là 
exp(~0.15) = 0.86, và khoảng tin cậy 95% dao động từ exp (~0.15~ 
1.96*0.068) = 0.75 đến exp(-0.15+1.96*0.068) = 0.98. Nói 
cách khác, mỗi 5 kg tăng cân nặng odds sinh con thiếu cân giảm 25%, và mối liên 
quan này có ý nghĩa thống kê (P = 0.023). 

Chúng ta có thể dùng hàm sjp.g1m (trong chương trình sjP1ot và 
sjmi se) để thể hiện mối liên quan giữa cân nặng của bà mẹ và nguy cơ sinh 
con thiếu cân như sau: 
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bwSmother.wt = (bw$lwE*0.453592) /5 
m = gim(low ~ mother.wt, family=binomial, data=bw) 
1ibrary(sjPlet); 1ibrary(sjmisc) 


sip.glm(m, vars=“mother.wt“, type=“pred”, show.ci=T 
trns.ticks=F) 


Predicted probabilties 





78N- 





LŨ 


motherwt 

Trong biểu đồ trên, trục hoành là cân nặng của mẹ, trục tung bên trái là xác 
suất thiếu cân, trục tung bên phải là số ca thiểu cân. Đường biểu diễn màu đỏ 
là mô hình hối qui logistic. Biểu đỗ phân bố ở phần trên là phân bố cân nặng 
của mẹ ở nhóm sinh con thiếu cân. Biểu đồ phân bố ở phần dưới là phân bố cân 
nặng của mẹ ở nhóm có sinh con không thiếu cân. 





Câu hỏi 12.4 Tìm các yếu tố liên quan đến biến outcome trong mô 
hình hồi qui logistic đa biến. Trong công trình nghiên cứu về yếu tố nguy cơ 
liên quan đến trẻ sơ sinh thiếu cân (dữ liệu bwt.csv, Chương 2), hãy xác định. 
các biến nào có liên quan đến nguy cơ sinh con thiếu cân. 











Đáp: Trong dữ liệu bwt.csv, các biến có thể có liên quan là bwt (tính bằng 
ounce, 1 ounce = 28.3495 gram), và 
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»_ gestation: thời gian mang thai (tính bằng ngày) 

« parity: có hai giá trị, 1 = sinh lần đầu, 0 = không phải lần đầu. 
» _age: tuổi của bà mẹ. 

« _ height: chiều cao của mẹ (tính bằng inches, 1 inch = 2.54 cm). 


»_ weight:trọng lượng của bà mẹ khi mang thai (tính bằng pounds, I pound= 
0.453592 kg). 


+ smoke: có hai giá trị, 1 = hút thuốc lá trong khi mang thai; 0 = không hút 
thuốc lá khi mang thai. 


Do đó, chúng ta cẩn đọc dữ liệu vào R và mã hóa lại các biến số để dễ hiểu: 
bw = read.csv (*~+/Dropbox/Q&A Book/Datasets/bwt.csv”) 


# Hoán chuyển cân nặng trẻ sơ sinh sang gram 
bw$birthwt = bw$bwt*28.3495 


# Phân nhóm cân nặng 

bw$low = ifelse(bw$birthwt < 2500, 1, 0) 

Với 6 biến tiên lượng, chúng ta có ít nhất 64 mô hình khả dĩ. Do đó, chúng 
ta sẽ dùng phương pháp Bayesian Model Averaging (BMA) để tìm mô hình "tối 
ưu” Phương pháp BMA được triển khai trong chương trình BMA và hàm bie. 
gìm như sau. Nhưng trước hết chúng ta phải xác định các biến phân nhóm: 


1ibrary (BMA) 


xvars = bw[, c(*gestation“, "parity“, "age”, "height”, 
Xweight”, "smoke”) ] 


yvar = bw[, c(*1ow“)] 


s = bic.glm(xvars, yvar, strict=F, OR=20, gìm. 
fami1y=“binomia1”) 


sunna ry (S) 


imagep1ot . bma (s) 
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# Kết quả 


2 models were selected 


Best 2 models 


Intercept 
gestation 
parity 
age 
height 
weight 


smoke 


nVar 
BIC 


post prob 


pl=0 
100 
100. 
0 
5. 
0. 
0. 
100. 


So m=meoo 


EV 
16. 
~0. 


", ©°e 


199256 
075255 


„000000 
001719 
„000000 
„000000 
225715 


°°S°sneeew 


„253032 


008505 
000000 


„009014 
„000000 
„000000 


304469 


(cumulative posterior probability — 


model 1 
1,685e+01 
~1.525e~02 


1.224e+00 


3 
~7.907e+03 
0.942 


1): 


model 2 


1.602e+01 


~71.530e-02 


2,957e-02 


.259e+00 


3 
~?.902e+03 
0.058 


Kết quả trên cho thấy phương pháp BMA nhận dạng chỉ 2 mô hình. Mô. 
hình 1 gồm 2 yếu tố gestation và smoke; mô hình 2 gồm gestation và 
age. Mô hình 1 có xác suất hậu định cao nhất (94.2%), nhưng mô hình 2 có xác 
suất hậu định chỉ 5.8%. Hai yếu tố có xác suất (100%) liên quan đến nguy cơ trẻ 
thiếu câu là gestation và age.. 
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Models selected by BMA. 


gestatlon 
panty 

le l 
height 
weight 
smoke 


1 2 
Model. 





Như vậy, mô hình hồi qui logistic để tiên lượng nguy cơ thiếu cân là: 


P 
bơ re) ~ø+ (age)+ Ø(gestation) 
và triển khai trong R qua hàm 1rm trong chương trình rms : 


Library (rms) 





m 1rm (low 1e n„ bw) 
Kết quả phân tích: 

: Rich s2 0.239 

Brie h 








220 
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Kết quả phân tích cho thấy mô hình khả dĩ đến đánh giá và tiên lượng xác 
suất sinh con thiếu cân là: 

s(r >)* 16.57+0.019(age)—0.074(gestation) 

“Theo chỉ số R?= 0.239, mô hình trên giải thích gần 24% khác biệt về nguy cơ 
sinh con thiếu cân. Chỉ số c = 0.855 tương đương với diện tích dưới đường biểu 
điễn receiver operating characteristic (ROC). 

Chúng ta có thể dùng hàm sjp.p1lot trong chương trình sjPlot và 
sjmi sc để thể hiện mối liên hệ giữa hai biến age và gestation với 1ow : 

m = gIm(low ~ age + gestation, family=binomial, data=bw) 

1ibrary(sjPlot); 1ibrary(sjmisc) 

8jp.g1m (m) 


low 





Biểu đổ dưới đây vẽ giá trị tiên lượng (xác suất sinh con thiếu cân) cho mỗi 
biển tiên lượng: 


SjP.glm(m, vars=c(*age”, *gestation”), type=”slope”, 
show.ci=T, trns.ticks=F) 


Big 
J"ieulun.hoplo.org. 


hlpe/ 


Predicted probabilities for low' 








Câu hỏi 12.5 Vẽ đường biểu diễn ROC. ROC thường được dùng để 
đánh giá một phương pháp hay một mô hình tiên lượng. Đường biểu diễn 
ROC gồm có trục tung là độ nhạy, và trục hoành là xác suất đương tính giả 
(tức lấy 1 trừ cho độ đặc hiệu). Do đó, có thể xem đường biểu diễn ROC là một 
thước đo dung hòa giữa độ nhạy và tỉ lệ dương tính giả của một mô hình tiên 
lượng. Trong mô hình trên, logit(P) = 16.57 + 0.019*age - 0.074*gestation, 
hãy vẽ đường biểu diễn ROC về khả năng phân định của mô hình. 











Đáp: Trong R có một số chương trình có thể vẽ đường biểu diễn ROC, 
nhưng chương trình có ích nhất và đễ sử dụng nhất có lẽ là pROC. Để vẽ đường 
biểu diễn, chúng ta cần phải thực hiện những bước sau đây: 


Bước 1: Xây dựng mô hình hồi qui logistic: 


m = glm(low ~ age + gestation, family=binomial, data=bw) 
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Bước 2: Tính xác suất tiên lượng (predicted probability) sinh con thiếu cân. 
bằng hàm predict: 

bưw§pp = predict (m, type=“response”) 

Bước 3: Gọi package pROC và dùng các hàm để tính diện tích dưới đường 
biểu diễn ROC và khoảng tin cậy 95% dùng hàm roc, auc và ci: 

1ibrary (pROC) 

roc.curve = roc (bwộlow ~ PP) 

auec (xoe. curve) 


>_auc (roe. curve) 
Area under the curve: 0.8553 


>_ci (ree.curve) 
95% CI: 0.8119-0.8987 (DeLong) 


Bước 4: Vẽ đường biểu diễn ROC: 

plot. roc (smooth (zoe. curve) ) 

hoặc: 

Plot. roc (smooth (roc.curve), auc.polygon=T) 


Sensitivity 




















regression model). Trong dữ liệu nghiên cứu về xương, chẩn đoán loãng 
xương được phân thành 3 nhóm: loãng xương (Osteoporosis), thiếu. 
xương (Osteopenia), và bình thường (Normal). Bạn hãy dùng mô hình 
hồi qui logistic để đánh giá sự ảnh hưởng của giới tính và độ tuổi đến tình 
trạng loãng xương. 


Câu hỏi 12.6 Mô hình hồi qui logistic đa thức (multinomial logistic 








osteopenia, và normal) như trong dữ 


Đáp: Gọi Y là chẩn đoán loãng xương (với 3 “giá trị” osteoporosis, 
u. Gọi độ tuổi là X1 và giới tính là X2, 





và xem đây là hai biến tiên lượng. Vì Y có 3 giá trị, nên mô hình hồi qui logistic 
bình thường không thể áp dụng; chúng ta sẽ áp dụng mô hình hồi qui logistic đa 
thức (multinomial logistic regression, MLR). Mô hình MLR phát biểu như sau: 


si P(Y = osteoporosis) 


PỰ =normal) L + age + J;sex 


Và: 


L = osfeopenia) 


=ứ, +/;age+ ;;se 
| › +nGg€ + fpsex 


Như vậy, mô hình MLR lấy xác suất Y = normal là điểm tham chiếu của mô 


hình. Mô hình trên có 6 tham số. Mô hình MLR được triển khai trong R qua hàm 
multinom trong chương trình nnet. 


bone = read.csv(*bone data.csv”) 


1ibrary (nnet) 
bone$OSTEO = relevel (bone§osteo, ref=”Normal”) 


m = multinom(OSTEO ~ age + sex, data=bone) 


Kết quả là: 
> summary (m) 
Call: 


mul1tinom(£ormula = OSTEO ~ age + sex, data = bone) 


Coefficients: 
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(Tntercept) age sexM 
Osteopenia ~2.910686 0.06720605 ~0.01201679 
Osteoporosis -10.402922 0.17454699 ~0.49892611 


Std. Errors: 

(Intercept) age sexM 
Osteopenia 0.3630569 0.007615072 0.2148979 
Osteoporosis 0.9801274 0.016175936 0.3945949 


Residual Deviance: 840.2847 
AIC: 852.2847 


Mô hình trên bây giờ là: 


is) 





10.4+0.17 xage— 0.50 x sex (male) 





vài 
bị P(Y = osteopenia) 


PỤ = normal) =~2.91+0.067 x age~ 0.012 x sex(male) 


Để ước tính tỉ số odds, chúng ta có thể dùng hàm exp (coe££()) và 
khoảng tin cậy 95% exp (confint ()): 


>_exp (coe£ (m) ) 

(Tntercept) age sexM 
Osteopenia  5.443839e-02 1.069516 0.9880551 
Osteoporosis 3.034368e~05 1.190707 0.6071824 


>_exp (confint (m) ) 


„ „ Osteopenia 


2.5% 971.5.% 
(Intercept) 00.02672211 0.1109021 
age 1.05367156 1.0855984 
sexM 0.64842501 1.5055757 
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„ „ Osteoporosis 


2.5% 97.5 % 
(Intercept) 4.444085e-06 0.000207183 
age 1.153548e+00 1.229061951 
sexM 2.801814e-01 1.315827361 


Kết quả trên cho thấy mỗi năm tăng độ tuổi, odds loãng xương tăng 19%. 
(OR 1.19; khoảng tin cậy 95%, 1.15 đến 1.22), và odds thiếu xương tăng 7% 
(OR 1.07; khoảng tin cậy 95%, 1.05 đến 1.09). Nam giới có odds loãng xương 
thấp hơn nữ 39% (OR 0.61, khoảng tin cậy 95%, 0.28 đến 1.31) và có odds thiếu 
xương thấp hơn 1% (OR 0.99, khoảng tin cậy 95%, 0.65 đến 1.50). 





Câu hỏi 12.7 Mô hình hồi qui Poisson. Số liệu trong bảng dưới đây là 
số ca bệnh ung thư da ở thành phố St Paul (MN, Mĩ) theo độ tuổi. Ở mỗi độ 
tuổi, có dân số và số ca mắc bệnh. Câu hỏi đặt ra là có một mối liên quan nào. 
giữa số ca mắc bệnh và độ tuổi (sau khi đã điều chỉnh cho dân số) hay không. 











Độ tuổi Dân số Số mắc bệnh. 
15-24 192675 1 

25-34 146207 16 

35-44 121374 30 

45-54 111353 n 

55-64 83004 102 

65-74 55932 130 

75-84 29007 133 

85+ 7538 40 


Đáp: Trong trường hợp này, vì số ca mắc bệnh khá thấp (hay hiếm) so với 
đân số, và đó là một trong những điều kiện lí tưởng cho mô hình hồi qui Poisson. 
Nói cách khác, chúng ta giả định rằng số ca ung thư da tuân theo luật phân phối 
Poisson, và trong thực tế thì phần lớn đúng là như thế. 


Poisson đĩ nhiên là tên của nhà toán học bá tước Siméon Denis Poisson 
(Pháp). Ông là người phát kiến luật phân phối Poisson được sử dụng để mô tả 
tần số tử vong của lính Phổ trong thời chiến. Sau này, mô hình hồi qui để tìm 
hiểu mối liên hệ giữa biến tiên lượng và biến phụ thuộc tuân theo luật phân bố 
Poisson được đặt tên là Poisson Regression (hay hổi qui Poisson). 
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Chúng ta biết rằng mô hình hồi qui tuyến tính (linear regression) áp dụng, 
cho trường hợp biến phụ thuộc (dependent variable) là biến liên tục, và biến 
tiên lượng có thể là liên tục hay không liên tục. Mô hình hồi qui logistic áp dụng 
trong trường hợp biến phụ thuộc là biến nhị phân, còn biến tiên lượng có thể là 
liên tục hay không liên tục. Mô hình hối qui Poisson (nằm trong “đại gia đình” 
generalized linear model) thì ứng dụng cho trường hợp biến phụ thuộc là biến 
số đếm hoặc tỉ suất. 

Gọi , là số ca bệnh và N là dân số cho nhóm tuổi ¡. Gọi x là độ tuổi trung 
bình cho từng nhóm tuổi. Chúng ta phát biểu rằng tỉ suất mắc bệnh là hàm số 
của độ tuổi: 


TH. 


Nói cách khác: 
log(/,)= / + đ,x, + log(N,) 


Chúng ta sẽ dùng hàm gÌm để ước tính các tham số. Mã sau đây cho phép. 
chúng ta thực hiện việc ước tính: 


# Nhập dữ liệu 
age = c(19.5, 29.5, 39.5, 49.5, 59.5, 69.5, 79,5, 89,5) 


population = c(192675, 146207, 121374, 111353, 83004, 
55932, 29007, 7538) 


cases = c(1, 16, 30, 71, 102, 130, 133, 40) 


# Dùng hàm gÌm 
pois = glm(cases ~ age + o£ffset (log (population) ), 
fami1y=poisson) 


summary (pois) 
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Coefficients: 

Estimate Std. Error z value Pr(>|z|) 
(Intercept) -10.984100  0.172329 -63.74  <2e-16 *** 
age 0.069654 0.002531 27.52 <2e-l6 *** 


Signif. codes: 0 ***** 0.001 **** 0.01 *** 0.05 *.' 0.1 9° 1 


(Dispersion parameter for poisson family taken to be 1} 


Null deviance: 943.830 on 7 degrees of freedom 


Residual deviance: 35.725 on 6 degrees of freedom 











AIC: 83.125 
Kết quả trên cho thấy: 
log(,)= ~10.98+0.07xage + log(AN,) 
hay, 





Kết quả trên còn cho thấy mỗi năm tuổi liên quan đến 7% (tính từ exp(0.07) = 
1.07) tăng số ca mắc bệnh ung thư da. Con số 1.07 có thể hiểu như là một 
prevalence ratio (tỉ số nguy cơ hay tỉ số của hai tỉ lệ hiện hành), và tôi sẽ quay lại 
vấn để này trong một dịp khác. 

Chúng ta thể hiện hàm số trên qua hàm sjp.g1m để có thể hình dung 
mức độ ảnh hưởng của độ tuổi: 

1ibrary(sjPlot); Library(sjmisc) 


sjp.glm(pois, vars=c(*age”), type=”pred”, show.ci=T, 
trns.ticks=F) 
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Câu hỏi 12.8 Mô hình hồi qui Poisson. Số liệu trong bảng dưới đây 
phản ảnh số sinh Caesarean của một nhóm bệnh viện tư và công. Đánh giá 
mối liên quan giữa loại bệnh viện và “nguy cơ” sinh con Caesarean. 





Bệnh viện. Số trẻ sinh. Caesareans 


309 5 
679 13 


0 236 8 
1 739 16 
1 970 15 
1 2371 23 
1 

1 





1 1272 19 
1 3246 33 
1 1904 19 
1 357 10 
1 1080 16 
1 1027 2 
0 28 2 

1 2507 2 
0 138 2 

1 502 18 
1 1501 21 
1 2750 24 
1 192 9 


Chú ý: 0: bệnh viện tư, 1: bệnh viện công. 


Đáp: Gọi Y là số ca đẻ caesarean, X, là số trẻ em sinh của từng bệnh viện, và 
X, là loại bệnh viện. Mô hình hồi qui Poisson phát biểu như sau: 


log(V) = Ø +/8,Xị +;X; 


Chúng ta dùng R để ước tính hai tham số trên: 


births = c(236, 739, 970, 2371, 309, 679, 26, 1272, 
3246, 1904, 357, 1080, 1027, 28, 2507, 138, 502, 1501, 
2750, 192) 


cases = c(8, 16, 15, 23, 5, 13, 4, 19, 33, 19, 10, 16, 
22, 2, 22, 2, 18, 21, 24, 9) 


hospital = c(0,1,1,1,1,1,0,1,1,1,1,1,1,0,1,0,1,1,1,1) 
model = glm(cases ~ births + hospital, family=poisson} 


summary (model) 
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Kết quả: 





> summary (model) 


Coefficients: 

Estimate Std. Error z value ?r(>lzl) 
(Intercept) 1.351e+00 2.501e-01 5.402 6.58e-08 *** 
births 3.261e-04 6.032e-05 5.406 6.45e-08 *** 
hospital 1.045e+00 2.729e-01 3.830 0.000128 *** 


8ignif. codes: 0 ***** 0.001 **** 0,01 *** 0.05 *.' 0.1 ** 1 





(Dispersion parameter for poisson family taken to be 1) 


Null deviance: 99.990 on 19 degrees o£ £reedom 
Residual deviance: 18.039 on 17 degrees of £freedom 


AIC: 110.80 
Mô hình là: 











log(Y) = 1.351 + 0.000326X, + 1.045X, 


Tỉ số nguy cơ của bệnh viện công trên bệnh viện tư là exp(1.04) = 2.84, với 
khoảng tin cậy 95% là exp(1.04-1.96*0.273) = 1.66 đến exp(1.04+1.96*0.273) = 
4.83. 
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232 


_.... 


Xu. 


Phân tích sống còn 





ua Chương 11 chúng ta đã học về mô hình hồi qui tuyến tính đa biển, 

với biến phụ thuộc là biến liền tục. Chương 12 trình bày phương pháp 

hồi qui logistic, với biến phụ thuộc là biến phân nhóm. Chương này sẽ 
bàn về phương pháp phân tích biến số mang tính thời gian và sống còn (còn gọi 
là survival analysis). 


Trong nhiều nghiên cứu, nhà nghiên cứu không chỉ quan tâm đến biến cố 
xây ra, mà còn quan tâm đến thời gian biến cố đó xảy ra. Chẳng hạn như 2 bệnh 
nhân ung thư cùng tham gia vào một nghiên cứu, nhưng nếu bệnh nhân thứ nhất 
tử vong sau 6 tháng điểu trị, và bệnh nhân thứ hai tử vong sau 2 năm điểu trị thì 
đó là một khác biệt đáng kể. Yếu tố thời gian làm cho phân tích có phần phức tạp 
hơn. Chúng ta đã thấy mô hình hồi qui tuyến tính có biến phụ thuộc là biến liên 
tục, mô hình hồi qui logistic có biến phụ thuộc là nhị phân hay cũng có thể xem 
là biến cố. Cả hai mô hình hồi qui tuyến tính và logistic không thể dùng để phân 
tích đữ liệu với kết cục (outcome) là thời gian. Chúng ta cần một phương pháp 
khác, và phương pháp đơn giản nhất là phương pháp Kaplan-Meier. 

Khái niệm censored. Phương pháp Kaplan - Meier (KM) ước tính tỉ lệ sống 
sót tích luỹ (cumulative survival probability) của các đối tượng trong nghiên 
cứu. Để hiểu phân tích sống còn, chúng ta cẩn phải làm quen với khái niệm 
censored. Có thể định nghĩa khái niệm censored như là một quan sát không đầy 
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đủ do các nguyên nhân ngẫu nhiên và nguyên nhân censored phải độc lập với biến 
cố mà nhà nghiên cứu quan tâm (outcome). 

Ví dụ: Một nghiên cứu về ung thư gan theo đõi một nhóm bệnh 2 năm, và 
trong thời gian theo dõi, các nhà nghiên cứu quan sát diễn biến lâm sàng của 
từng bệnh nhân. Biến cố mà họ quan tâm là tử vong vì ung thư gan. Sau đây là 
vài trường hợp xảy ra: 

« _ Bệnh nhân A tham gia nghiên cứu cho đến khi bà qua đời vào tháng thứ 

15 sau khi tham gia nghiên cứu. Trường hợp này được xem là uncensored 
vì đây là một quan sát đẩy đủ (tức là biết được kết cục trong thời gian 
nghiên cứu). 

»_ Bệnh nhân B tham gia nghiên cứu cho đến tháng 24 (tức thời điểm kết 
thúc nghiên cứu) và vẫn còn sống. Trường hợp này cũng được xem là 
censored (vì kết cục chưa xảy ra cho đến thời điểm kết thúc nghiên cứu). 

«_ Bệnh nhân C tham gia nghiên cứu từ đầu và đến thời điểm 1.5 năm, bà 
quyết định không tham gia nữa và rút khỏi nghiên cứu. Trường hợp này 
được xem là một censored observation, bởi vì nhà nghiên cứu biết bà sống 
đến 1.5 năm (còn sau đó thì không biết). 

+ Bệnh nhân D tham gia nghiên cứu cho đến tháng thứ 23 (gần 2 năm) thì 
bị tai nạn xe và tử vong. Trường hợp này cũng được xem là censored vì 
nhà nghiên cứu biết bà còn sống đến tháng 23 và nguyên nhân tử vong 
độc lập với ung thư gan. 


Ví dụ trên cho thấy “censored” hay “survival (tức còn sống) là khái niệm để 
chỉ biến cố chưa xảy ra. 


Trong phân tích sống còn, có hai phương pháp chính: Kaplan - Meier và mô. 
hình Cox. Mục đích của phương pháp Kaplan - Meier là ước tính xác suất sống 
cho mỗi thời điểm. Với khái niệm censored (hay đơn giản hơn là "sống”), chúng 
ta có thể xem qua phương pháp Kaplan - Meier qua ví dụ sau đây: 

'Ví dụ: Sống sót ở bệnh nhân nhiễm HIV. Dữ liệu sau đây phản ảnh số ngày 
sống sót của một nhóm bệnh nhân HIV. Những bệnh nhân có dấu “*” và được 
tô đậm là censored (tức còn sống). Chẳng hạn như bệnh nhân 1 qua đời ở ngày 
thứ 6, bệnh nhân thứ 5 thì đến ngày 46 vẫn còn sống (và sau đó thì không biết). 
Số liệu của 23 bệnh nhân như sau: 


6, 12, 21, 27, 32, 39, 43, 43, 46*, 89, 115*, 139*, 181%, 211*, 217*, 261, 263, 
270, 295*, 311, 335*, 346*, 365* 
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Chúng ta có 23 bệnh nhân, và thời gian sống dao động từ 6 đến 365 ngày. 
Phân tích KM giả định rằng số bệnh nhân khởi đầu (thời điểm t = 0) là “at-risk” 
(có nguy cơ). Do đó, tại thời điểm t = 0, chúng ta có 23 bệnh nhân at-risk, và lúc 
đó chưa có tử vong, nên tỉ lệ tử vong [kí hiệu là g,) là 0, và tỉ lệ sống sót [kí hiệu. 


pị là 10. 


« Tại thời điểm t = 6 ngày, có 1 bệnh nhân tử vong. Do đó, q,= 1/23 = 


0.0435, và pt 





~ 0.0435 = 0.9565. 


5 Tại thời điểm t = 12 ngày, nghiên cứu còn 22 bệnh nhân at-risk (vì 1 


đã chết), có 1 bệnh nhân tử vong. Do đó, q, = 1/22 = 0.0455, và p,= 1 - 
0.0455 = 0.9545. Đến đây xác suất sống sót tích luỹ [kí hiệu Š,] bằng xác 


suất sống lúc 6 ngày và 12 ngày: 
§,= 0.9565 x 0.9545 = 0.9130 


»_ Đến thời điểm t = 21 ngày, số bệnh nhân at-risk là 21 người, và 1 người 
tử vong. Do đó, q,= 1/21 = 0.0476, và p, = 0.9524. Xác suất sống sót tích 


luỹ đến ngày 21 là: 
Š,= 0.9130x 0.9524 = 0.8695 


»_ Đến thời điểm t = 27 ngày, số bệnh nhân at-risk là 20 người, và 1 người tử 
vong. Do đó, q,= 1/20 = 0.05, và p, = 0.95. Xác suất sống sót tích luỹ đến 


ngày 27 là: 
$,= 0.8695x 0.95 = 0.8260 


»_ Đến thời điểm t = 43 ngày, số bệnh nhân at-risk là 17 người, nhưng tại 
thời điểm này có 2 người tử vong. Do đó, q, = 2/17 = 0.1176, và p, = 


0.8824. Xác suất sống sót tích luỹ đến ngày 43 là 0.6522. 


Tương tự chúng ta tính cho t = 32, 39, 43, 89, 261, 263, 270, 311. Chú ý, 


chúng ta không tính cho những thời điểm censored vì không có biến cố. 









































Xác suất sống tại thời điểm t và khoảng tin. 
ố bệnh nhân | Số tử ¡ cậy 959 (KTC95 
Xác suất (5) | (ủagTC95 | củaKTC95 
6 23 1 0.957 0.877 1.000 
12 22 1 0.913 0.805 1.000 
21 21 1 0.870 0.742 1.000 
27 20 1 0826 0685 0996 
32 19 1 0783 0631 0971 
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39 18 1 0739 0.580 0.942 
43 17 2 0652 0.484 0879 
89 14 1 0.606. 0.435 0.844 
261 8 1 0.530 04347 0.809 
263 7 1 0.454 0.270 0.764 
270 6 1 0.378 0.201 0.711 
311 4 1 0.284 0.122 0.663 





Bảng trên có khi còn được gọi là li table (bảng sống). Phân tích trên đây 
chỉ áp dụng cho một nhóm bệnh nhân. Trong thực tế, phương pháp KM thường 
được sử dụng để so sánh hai xác suất sống còn giữa hai nhóm hay nhiều hơn hai 
nhóm. Phương pháp KM có lẽ là một trong những phương pháp phân tích phổ 
biến nhất và có ích nhất trong các nghiên cứu đoàn hệ mà biến phụ thuộc là thời 
gian dẫn đến biến cố. 

Các bảng sống thường được dùng trong dân số học và bảo hiểm cũng dựa 
vào phương pháp KM. Tuy nhiên, phương pháp KM không thể đánh giá ảnh 
hưởng của nhiều biến tiên lượng. Để đánh giá ảnh hưởng của một hay nhiều 
biến tiên lượng, chúng ta cần tìm hiểu một phương pháp thống kê nổi tiếng 
khác: mô hình hồi qui Cox. 


Kiểm định log-rank là phương pháp cho phép chúng ta so sánh xác suất tích 
luỹ, S(f), giữa hai hay nhiều nhóm. Nhưng trong thực tế, S(/) hay hàm rủi ro hay 
còn gọi là hazard funetion, kí hiệu là h(t) có thể không chỉ khác nhau giữa các 
nhóm, mà còn chịu sự chỉ phối của các yếu tố khác. Vấn để đặt ra là làm sao ước 
tính mức độ ảnh hưởng của các yếu tố nguy cơ (risk factors) đến h(!). 


Vào thập niên 1970s, David R. Cox, giáo sư thống kê học thuộc Đại học 
Imperial College (London, Anh) phát triển một phương pháp phân tích dựa vào 
mô hình hồi qui (regression) để trả lời câu hỏi trên. Phương pháp phân tích đó 
(mô tả trong bài báo Regression models and liƒe tables, Journal ofthe Royal Stastical 
§ociety 1972), sau này được gọi là Mô hình hồi qui Cox (Coxš proportional hazards 
model). Mô hình Cox được đánh giá là một trong những phát triển quan trọng 
nhất của khoa học nói chung (không chỉ khoa học thống kê) trong thế kỉ 20! Bài 
báo vừa để cập đã được trích dẫn hàng vạn lần trong vòng 30 năm qua. 

Để hiểu mô hình Cox, chúng ta cẩn làm quen với khái niệm hazard, vì mô 
hình hồi qui Cox xem hàm rủi ro là một biến độc lập. Hiểu hàm này không dễ vì 
sách giáo khoa nước ngoài có khi giải thích rất rắc rối. Trong ngữ cảnh phân tích 
sống còn, hazard phản ảnh tốc độ tử vong của bệnh nhân. Một cách ngắn gọn, 
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hazard là độ đốc (slope) của đường biểu diễn sống còn. Cũng có thể giải thích 
bằng khái niệm hazard bằng toán (cấp trung học). Gọi S(t) là xác suất tích luỹ 
sống sót. Gọi F(t) là hàm số tích luỹ tử vong, tức 

F(Œ) = 1 - S(t) 


Do đó, đạo hàm của F(t), kí hiệu là f(t), là hàm số mật độ xác suất (probability 
đensity function): 


ft) = dF / dt 


Hàm rủi ro (hazard function) À(/) được định nghĩa là tỉ suất biến cổ (tử 
vong) xảy ra trong khoảng thời gian t đến t + At, khi At tiến gần đến 0, với điều 
kiện biến cố chưa xảy ra cho đến thời điểm t. Để tìm một phát biểu toán học cho 
h(t), chúng ta cần nhận ra rằng h(t) bản thân nó là một xác suất có điểu kiện. 
Cần nhớ rằng công thức xác suất có điểu kiện là P(A | B) = P(A v B) / P(B). Nếu 
gọi Pr(A V B) = AF/At= đF/dt, và At là 0, chúng ta có thể chứng minh một cách 
dễ dàng rằng: 

_ 4F dt — ƒ(t) 
h{t)= “sự) “ su) 

Thay vì viết h(t), nhìn qua công thức trên, chúng ta thấy dF là hiệu số giữa 2 
xác suất, dt là hiệu số về thơi gian, và S(U là xác suất, nên h(Ð) có đơn vị xác suất 
/ xác suất / thời gian, hay 1/thời gian. Như vậy, h(Ð không phải là xác suất như 
chúng ta tưởng, mà là số biến cố trong một khoảng thời gian - và do đó tôi gọi 
là tỉ suất. 

Sau khi đã biết bản chất của h(t), bây giờ chúng ta có thể tìm hiểu mô hình. 
hồi qui Cox. Gọi x„ x„ x, ... x là p yếu tố nguy cơ. x có thể là các biến liên tục 
hay không liên tục. Mô hình Cox phát biểu rằng: 


h()=A() cln+f+5+-+8,, 


h(t) được định nghĩa như phần trên (tức hàm rủi ro), B,, Š,, B.,.... B, là hệ 
số ảnh hưởng liên quan đến mỗi biến x, và À(¿) là hàm số rủi ro nếu các yếu tố 
nguy cơ x = 0. À(£) có khi được gọi là baseline hazard function, tức là rủi ro trung 
bình trong quẩn thể. A(?) có thể ước tính từ phần tích Kaplan - Meier như mô tả 
trong phần 14. Vì mức độ ảnh hưởng của một yếu tố nguy cơ x, (j = 1, 2, 3,..., P) 
thường được thể hiện bằng tỉ số rủi ro (hazard ratio, HR, cũng tương tự như risk 
ratio), hệ số exp(B,) chính là HR cho khi X tăng một đơn vị. 
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Phương pháp Kaplan - Meier và mô hình Cox được triển khai trong R 
qua chương trình suzviva1. Tuy nhiên, các chương trình khác như rms, 
survminer, và ggforti£y cũng có thể áp dụng để phân tích các đữ liệu 
sống còn. 


..* 





Câu hỏi 13.1 Thời gian sống sót ở bệnh nhân nhiễm HIV. Một nhóm 
bệnh nhân (n = 23) nhiễm HIV được theo dõi một thời gian, dữ liệu dưới 
đây phản ảnh số ngày sống sót. Những bệnh nhân có đấu “*” và được tô đậm. 
là censored (tức còn sống). Hãy áp dụng phương pháp Kaplan - Meier để ước 
tính xác suất sống của các bệnh nhân theo thời gian. 


6, 12, 21, 27, 32, 39, 43, 43, 46*, 89, 115*, 139*, 181*, 211*, 217%, 261, 
263, 270, 295*, 311, 335*, 346*, 365* 











Đáp: Trước hết, chúng ta cẩn nhập dữ liệu vào một data frame. Dữ liệu 
cho phân tích sống còn thường có hai biến chính: thời gian sống và tình trạng 
(status). Biến status thường có hai giá trị: 0 là censored và 1 là tử vong. 

# Tạo ra biến id từ 1 đến 23: 

id = 1:23 


# Tạo ra biến time và status. Biến status được mã hoá là 0 = censored, 1 = dead 


time = c(6, 12, 21, 27, 32, 39, 43, 43, 46, 89, 115, 
139, 181, 211, 217, 261, 263, 270, 295, 311, 335, 346, 
365) 


status = c(1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 
1, 1, 1, 0, 1, 0, 0, 0) 


# Tạo ra một dataset gọi là đat: 


dat = data.frame(id, time, status) 


> dat 
id time status 
1 3 6 1 
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2 2 bức 1 
3 3 21 1 
4 4 27 ñ 
5 5 32 1 
6 6 39 1 
7 7 43 1 
8 8 43 1 
9 9 46 0 
10 10 89 1 
11 11 115 0 
12 12 139 0 
13 13 181 0 
14 14 211 0 
15 15 217 0 
16 16 261 Ni 
17117 263 Ỹ. 
18 18 270 N' 
1919 295 0 
20 20 311 1 
ÿ1 21. 335 0 
22 22 346 0 
2323 365 0 


# Gọi chương trình survival: 
1ibrary (survival) 


# Tính toán xác suất tử vong (status==1) dùng hàm survÑt và đưa vào đối 
tượng kp: 


survtime = Surv(time, status==1l) 
kp = survfit(Surv(time, status==l) ~ 1) 


surmmary (kp); plot (kp) 
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Hàm summary (kp) sẽ cho ra bảng sống dưới đây, kèm theo khoảng tin 


cậy 95%. 


> summary (Kp) 


Call: 


survfit (formula = 


Surv (time, 


status == 


1) 


time n.risk n.event survival std.err lower 95% CI upper 95% CI 


6 
12 
21 
27 
32 
39 
43 
g9 

261 
263 
270 
311 


23 
22 
21 
20 


~ .a # 


1 


Bọ Ho HH Họ 8B nh B nh Bó 


0. 


Soceoeeceeeeeoe 


957 
913 
870 


.826 


T83 


-739 


652 
606 
530 
454 
378 
284 


0.0425 
0.0588 
0.0702 
0.0790 
0.0860 
0.0916 
0.0993 
0.1026 
0.1143 
0.1205 
0.1219 
0.1228 


0.877 
0.805 
0.142 
0.685 
0.631 
0.580 
0.484 
0.435 
0.347 
0.270 
0.201 
0.122 


HỘ 
1.000 
1.000 
0.996 
0.971 
0,942 
0. 
0 
0 
0 
0 
0 


000 


879 


.844 
.809 
.764 
-T11 
.663 


Hàm p1ot (kp) sẽ cho ra biểu đồ sống còn như sau (chú ý biểu đồ trình 
bày xác suất sống còn và khoảng tin cậy 95% thể hiện bằng đường đứt đoạn): 








00 
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Chúng ta có thể "cải tiến” biểu đổ trên bằng cách dùng hàm autop1oE 
trong chương trình “gg£ozL 1 £y”. 

1ibrary (ggforti£y) 

autoplot (kp, surv.colour=“blue”, ylab=“Probability”, 
xl1ab=”Time”) 


Ỹ 


Probabillty 
š 


2886- 


Ũ MO mạ V300 30 
Thay vì thể hiện xác suất sống còn, chúng ta có thể thể hiện xác suất tử vong 
(biến cố xảy ra) bằng cách thêm Fun=“event.“ trong hàm autoplot: 
autoplot (kp, £un=“event“, surv.colour=”blue”, 
ylab=“Probability“, xlab=“Time”) 


78% 


ề 


Probabilty 


Ề 


200. 
Time 
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Một cách khác để thể hiện kết quả là dùng hàm ggsurvp1ot trong chương, 
trình *suzvmi nez”. Biểu đổ này còn báo cáo số đối tượng "at risk” ở mỗi thời điểm: 


1ibrary (survminer) 


ggsurvplot (kp, fun=”event”, data=dat, risk.table=T, 
co1=”blue”) 


0254 


Cumulative event 
§ 


025} 











Câu hỏi 13.2 So sánh survival curves giữa hai nhóm. Dữ liệu sau đây 
mô tả thời gian sống sót (năm) của 2 nhóm bệnh nhân, mỗi nhóm 25 người. 
Nhóm 1 là nhóm chứng, nhóm 2 là những bệnh nhân có bệnh mãn tính. 
Mục tiêu nghiên cứu là so sánh xác suất sống sót của hai nhóm bệnh nhân: 


Nhóm 1: 12.3*, 5.4, 8.2, 12.2%, 11.7, 10.0, 5.7, 9.8, 
2.6, 11.0, 9.2, 12.1*, 6.6, 2.2, 1.8, 10.2, 10.7, 
11:1; 5:3; 3:5; 6z2„ 9⁄5; B.7„ 3x6; 5:0 

Nhóm 2: 5.8, 2.9, 8.4, 8.3, 9.1, 4.2, 4.1, 1.8, 3.1, 
11.4, 2.4, 1.4, 5.9, 1.6, 2.8, 4.9, 3.5, 6.5, 9.9, 
Xiối. S2: Bo, Hiốy 3¿7¡ âcŠ 


Chú ý, tất cả bệnh nhân nhóm 2 đều tử vong. Nhóm 1 có 3 bệnh nhân 
còn sống sau khi kết thúc nghiên cứu. 
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Đáp: Chúng ta có thể áp dụng phương pháp Ki bình phương (log-rank test) 
để trả lời câu hỏi. Với các số liệu trên, chúng ta có thể ước tính xác suất sống sót 
cho từng nhóm, và vẽ biểu đồ KM cho 2 nhóm để đễ so sánh: 

# Nhập dữ liệu cho từng nhóm và đưa vào một dataset: 


timel = c(12.3, 5.4, 8.2, 12.2, 11.7, 10.0, 5.7, 9.8, 
2.6, 11.0, 9.2, 12.1, 6.6, 2.2, 1.8, 10.2, 10.7, 11.1, 
5.3, 3.5, 9.2, 2.5, 8.7, 3.8, 3.0) 


statusl = c(0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 
đ¿ ¿ 1¿ 1¿ 1y 1¿:3; 1¿ 1; 1) 


time2 = c(5.8, 2.9, 8.4, 8.3, 9.1, 4.2, 4.1, 1.8, 3.1, 
11.4, 2.4, 1.4, 5.9, 1.6, 2.8, 4.9, 3.5, 6.5, 9.9, 3.6, 
5.2, 8.8, 7.8, 4.7, 3.9) 


status2 = c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 
1, 1, 1, 1, 1, 1, 1, 1, 1, 1) 


time = c(timel, time2) 

status = c(statusl, status2) 

group = c(rep(1,25), rep(2,25)) 

dat = data.frame(time, status, group) 


# Kiểm tra dữ liệu: 


head (dat) 
> head (dat) 

tỉme status group 
1 12.3 0 1 
2 5.4 1 1 
3.8.2 1 1 
4 12.2 0 1 
5 11.7 1 1 
6 10.0 1 1 


Chúng ta sẽ dùng hàm survÑt trong chương trình suzviva1 để ước tính 


xác suất sống còn cho mỗi nhóm: 
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1ibrary (survival 


kp.by.group = survfit (Surv (time, 


summary (kp. by ..qgroup) 





status==1) 


~ group) 


Kết quả là xác suất sống còn cho mỗi nhóm (và khoảng tin cậy 95%): 


> summary (kp.by.group) 


group=1 


time n.risk n.event survival 


1.8 
2.2 
2.5 
2.6 
3.0 
3.5 
3.8 
5.3 
5.4 
5,7 
6.6 
8.2 
8.7 
9.2 
9,8 
10. 
10 
10. 
š Lẻ 
11. 
11. 


mD»ohằaNo© 


25 
24 
23 
22 
21 
20 
19 
18 
17 
16 
15 
14 
13 
12 
10 


~ ơn  « œ 


1 


HH HH Họ Bị Hộ NÓ H Họ họ Bị Bọ HH HH Bị BH 


0, 
0. 
0. 
0, 
0. 
0. 
0. 
0.68 
0. 
0 

0 


0. 
0. 
0. 
0. 
0. 
0. 
9. 


96 
92 
88 
84 
80 
T6 
T2 


64 


-60 
.56 
0. 
0. 
0. 


52 
48 
40 
36 
32 
28 
24 
20 
16 
12 


std.err lower 95% CI upper 95% CI 


0.0392 
0.0543 
0.0650 
0.0733 
0.0800 
0.0854 
0.0898 
0.0933 
0.0960 
0.0980 
0.0993 
0.0999 
0.0999 
0.0980 
0.0960 
0.0933 
0.0898 
0.0854 
0.0800 
0.0733 
0.0650 


0.8862 
0.8196 
0.7614 
0.7079 
0.6576 
0.6097 
0.5639 
0.5197 
0.4770 
0.4357 
0.3956 
0.3568 
0.3192 
0.2475 
0.2135 
0.1807 
0.1493 
0.1195 
0.0913 
0.0652 
0.0415 


1, 
1. 
1. 
0. 
0.973 
0.947 
0.919 
0.890 
0.859 
0.826 
0. 
0 
0 
0 
0 
0 
0 
0 


0. 


000 
000 
000 
997 


793 


.758 
.122 
.646 
„607 
.56T 
.525 
.482 
0. 
0. 


438 
393 
347 
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group=2 


time n.risk n.event survival std.err lower 95% CI upper 95% CI 


1.4 
1.6 
1.8 
2.4 
2.8 
2.9 
3.1 
3.5 
3.6 
3.9 
4.1 
4.2 
4.7 
4.9 
5.2 
5.8 
5.9 
6.5 
7.8 
8.3 
8.4 
8.8 
9.1 
9,9 
11.4 


25 
24 
23 
22 


HN 6 Ơn Ơi c Œ 


hi 


Bọ Họ HH Bị Bị Bộ lì Họ Bị Họ Bì Bà Hà Hà Hà Bộ Bị Họ Bị nón H 


0. 
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%6 
92 
88 
84 
80 
16 
12 
68 
s4 
60 
56 
52 
48 
44 
40 
36 
32 
28 
24 
20 
16 
12 
08 
04 
00 


0. 


0. 


©eoeooeooeoeoeoceocooceocoeceococeceoceeoceeoece 


0392 
0543 
0650 
0733 
0800 
0854 
0898 
0933 
0960 
0980 
0993 
0999 
0999 
0993 
0980 
0960 
0933 
0898 
0854 
0800 
0733 
0650 
0543 
0392 

NaN 


0.88618 
0.81957 
0.76141 
0.70791 
0.65761 
0.60974 
0.56386 
0.51967 
0.47698 
0.43566 
0.39563 
0.35681 
0.31919 
0.28275 
0.24749 
0.21346 
0.18071 
0.14934 
0.11947 
0.09132 
0.06517 
0.04151 
0.02117 
0.00586 

NA 


1.000 
1.000 
1.000 
0.997 
0.973 
0.947 
0.919 
0.890 
0.859 
0.826 
0.793 
0.758 
0.722 
0.685 
0.646 
0.607 
0.567 
0.525 
0.482 
0.438 
0.393 
0.347 
0.302 
0.273 

NA 


Để so sánh xác suất giữa hai nhóm, chúng ta dùng hàm survdi££ để tính 


Ki bình phương: 


survdi££ (Surv (time, 


status==l) 


~ group) 


Kết quả (xem output dưới) cho thấy khác biệt về xác suất sống còn giữa hai 


nhóm có ý nghĩa thống kê (P = 0.0047). 
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> survdiff(Surv(time, status==l) ~ group) 
Ca11: 


survdi£f£ (formula = Surv(time, status 





1) ~ group) 
N Observed Expected (O-E)^2/E (O-E)^2/V 
group=l 25 22 30.8 3.51 1,99 


group=2 25 25 16.2 4.76 7.99 


Chisq= 8 on 1 degrees of freedom, p= 0.0047 
Chúng ta có thể thể hiện qua hàm ggsurvplot (trong chương trình 


survminer): 
1ibrary (survminer) 


ggsurvplot (kp.by.group, data=dat, risk.table=T) 


Strata_ “= gtoup=1 “= group=2 
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Chúng ta có thể thêm trị số P và khoảng tin cậy 95%: 


ggsurvplot (kp.by.group, đata=dat, risk.table=T, pval=T, 
con£.int=T) 
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hay thể hiện bằng xác suất “event”: 
ggsurvp1ot (kp.by.group, fun=”event”, đata=dat, risk. 
table=T, pval=T, conf.int=T) 





Câu hỏi 13.3 Mô hình Cox. Dữ liệu dưới đây thu thập từ một nghiên 
cứu về các yếu tố ảnh hưởng đến thời gian sống ở bệnh nhân ung thư bạch 
cầu (leukemia). Nghiên cứu gồm 2 nhóm bệnh nhân: nhóm điểu trị và nhóm 
chứng, mỗi nhóm gồm 21 bệnh nhân. Thời gian sống (Time) và bạch cẩu 
(WBC) được ghi nhận ở mỗi bệnh nhân, và kết quả như sau. Hãy kiểm định 
giả thuyết hai nhóm có xác suất sống còn như nhau. 











ID Group Time Status WBC ID Group Time Status WBC 
1 1 6 1 231 2 0 1 1 28 
2 1 6 1 4.06 23 0 1 1 5 

3 1 6 1 3.28 24 0 2 1 4.91 
4 1 7 1 443 25 0 2 0 448 
5s 1 10 1 2.96 26 0 3 1 401 
6 1 13 1 288 27 0 4 0 436 
Là 1 16 1 36 28 0 4 0 242 
98 1 2 1 232 29 0 s 1 349 
° 1 23 1 257 30 0 kì 1 397 
10 1 6 0 32 31 0 8 1 3.52 
1: Z4 9 0 28 32 0 8 1 3/05 
12 1 10 0 27 33 0 8 0 232 
13 1 11 0 26 34 0 8 1 3.26 
14 1 17 0 216 35 0 11 1 349 
15 1 19 0 205 36 0 11 0 212 
16 1 20 0 201 37 0 12 1 15 
17 1 25 0 1/78 38 0 12 Íl 3.06 
18 1 32 0 22 39 0 15 1 23 
19 1 32 0 253 40 0 17 0 295 
20 1 34 0 147 41 0 2 1 273 
21 1 35 0 145 42 0 2 1 1.97 


Chú thích: ID, mã số bệnh nhân; Group, nhóm (0 là nhóm chứng, 1 là nhóm. 
điểu trị); Time, thời gian sống (tuần); Status (0 = sống (censored), 1 = chết). 
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Đáp: Mục tiêu nghiên cứu là nhằm trả lời 2 câu hỏi: (1) có khác biệt về thời 
gian sống giữa nhóm điểu trị và nhóm chứng; và (2) WBC đo lúc trước khi điều 
trị có ảnh hưởng đến thời gian sống. Mô hình Cox có thể sử dụng để trả lời hai 
câu hỏi này. Gọi h(t) là hàm số rủi ro tử vong, chúng ta có thể phát biểu rằng h(t) 
được xác định bởi rủi ro trong quần thể và hàm số liên quan đến nhóm điều trị 
và WBC; 


h(()= Â(()e299z+c 


Vấn để là cần ước tính hai thông số ổ, và ,. Ngoài ra, À(t) có thể ước tính 
bằng phương pháp Kaplan - Meier. Chúng ta triển khai trong R: 

# Nhập dữ liệu 

grzoup = c(rep(1,21), rep(0, 21)) 


time = c(6,6,6,7,10,13,16,22,23,6,9,10,11,17,19,20,25,32 
,32,34,35,1,1,2,2,3,4,4,5,5,8,8,8,8,11,11,12,12,15,17,22 
,23) 


status = c(1, 1, 1, 1, 1, 1, 1, 1, 
1,0,0,0,0,0,0,0,0,0,0,0,0, 1,1,1,0,1,0,0,1,1,1,1, 
0,1,1,0, 1,1,1,0,1,1) 


wbe = c(2.31,4.06,3.28,4.43,2.96,2.88,3.60,2.32,2.57,3.2 
0,2.80,2.70,2.60,2.16,2.05,2.01,1.78,2.20,2.53,1.47,1.45 
; 2.80,5.00,4.91,4.48,4.01,4.36,2.42,3.49,3.97,3.52,3.05 
;2.32,3.26,3.49,2.12,1.50,3.06,2.30,2.95,2.73,1.97) 


đat = data. £rame (group, time, status,wbc) 


1ibrary(survival) ; 1ibrary(survminer) 


# Ước tính xác suất sống còn 


baseline = Surv(time, status==0) 


km = survfit(baseline ~ 1) 
ggsuzvplot (km, data=dat, risk.table=T, col=»blue») 
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# Ảnh hưởng của group và wbc qua mô hình Cox: 


cox = coxph(Surv(time, status==l) ~ group + wbc 


summary (cox) 


kết quả của mô hình: 
>_summary (cox) 
Call: 


coxph (formula = Surv(time, status == 1) ~ group + wbc) 


n= 42, number of events= 24 


coef exp(coef) se(coef) z Pr(>|z|) 
group -1.1431 0.3188 0.4606 -2.482 0.0131 * 
wbc€ 1.8762 6.5285 0.3852 4.871 1.11le-06 *** 


Signif, codes: 0 ***** 0.001 **** 0.01 *** 0,05 *,' 0,1 **# 1 


exp(coef) exp(-coef) lower .95 upper .95 
group — 0.3188 3.1364 0.1293 0.7864 
wbc 6.5285 0.1532 3.0688 13.8888 


Concordance= 0.853 (se = 0.07 ) 

Rsquare= 0.596 (max possible= 0.97 

Likelihood ratio test= 38.05 on 2 df, p=5.473e-09 
Wald test = 26.64 on 2 đf,  p=l.64le-06 
Score (logrank) test = 37.37 on 2 df, p=7.669e-09 


Kết quả trên có hai phần: phần đầu là ước số của thông số trong phương 
trình trên, phần 2 là hàm số mũ của ước số, tức là hazard ratio - HR. Cần nhớ 
rằng chúng ta mã hóa nhóm điểu trị là 1, và nhóm chứng là 0. Kết quả cho thấy 
với cùng chỉ số bạch cầu tương tự nhau thì rủi ro tử vong trong nhóm điều trị chỉ 
bằng 32% nhóm chứng (HR 0.32, khoảng tin cậy 95% 0.13 đến 0.79; P = 0.013). 
Ngoài ra, bất kể bệnh nhân thuộc nhóm nào (tức có hay không có nhận điều 
trị) thì bạch cầu tăng càng cao thì rủi ro tử vong cũng tăng cao. Mỗi đơn vị tăng 
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'WBC làm gia tăng rủi ro tử vong gấp 6.5 lần (KTC95 là từ 3.1 đến 13.9), và ảnh 
hưởng này có ý nghĩa thống kê. 





Câu hỏi 13.4 Mô hình Cox đa biến, nghiên cứu xơ gan mật. Công trình 
nghiên cứu lâm sàng đối chứng ngẫu nhiên về xơ gan mật nguyên phát 
(primary biliary cirrhosis) để đánh giá hiệu quả của thuốc D-penicillamine. 
Nghiên cứu đo lường các chỉ số liên quan đến gan như bilirubin, albumin, 
sgot, protime. Hãy ước tính mức độ ảnh hưởng của các yếu tổ này sau khi 
hiệu chỉnh cho độ tuổi. 











Đáp: Trước hết chúng ta cần đọc dữ liệu vào R (như Chương II), và dùng 
hàm coxph trong chương trình survival để phân tích. Chú ý rằng biến 
outcome là £u.days và status, nhưng chúng ta cần mã hoá status thành 2 
giá trị "death” hay “censored” = 0. Các biến liên quan là age, albumin, 
bili vàprotime. 





pbc = read.csv(*pbc.csv”) 
pbc$Status = ifelse(pbc$status==“death”, 1, 0) 
1ibrary (survival) 


s = coxph(Surv(fu.days, Status) ~ age + albumin + bili + 
protime, đata=pbc) 


sunmar y (s} 


Kết quả là: 


> summary (s) 
= 312, number o£ events= 125 
coef exp(coef) se (coef} z Pr(>lzl) 


age 9.207e-05 1.000e+00 2.523e-05 3.649 0.000263 **>* 
albumin -1.394e+00 2.481e-01 2.170e-01 -6.422 1.34e-10 *** 
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bili 1.252e-01 1.13 
protime 2.860e-01 1.33 


3e+00 1.441e-02 


1e+00 7.054e-02 


8.689 
4.055 5,01e-05 *** 


< 2e-16 *#* 


Signif. codes: 0 ***** 0.001 **** 0.01 *** 0.05 *, 0.1 ** 1 


exp(coef) exp(-coef) lower 


age 1.0001 
albumin 0.2481 
bili 1.1334 


protime 1.3311 


Concordance= 0.82 (se 


Rsquare= 0.395 (max possible= 0.983 


Likelihood ratio test= 
Wald test = 


Score (logrank) test = 


0.9999 
4.0307 
0.8823 
0.7512 


= 0.029 ) 


.95 upper 
1.0000 1 
0.161 0 
1.1018 1. 
1.1593 1 


156.9 on 4 đf, 
177.6 on 4 đf, 
259.6 on 4 df, 


p=0 
p=0 
p=0 


-95 


„0001 
-3796 


1658 


.5285 


Kết quả trên cho thấy tất cả các yếu tố đều có ý nghĩa thống kê (P < 0.05). 
Tăng độ tuổi, tăng bilirubin và protime có liên quan đến tăng nguy cơ tử vong, 
nhưng tăng albumin lại có liên quan đến giảm nguy cơ tử vong. 








Câu hỏi 13.5 Ước tính giá trị phân định (discrimination) cho mô hình 
Cox. Tiếp tục câu hỏi 13.4, dựa vào mô hình trên, hãy ước tính diện tích dưới 
đường biểu diễn ROC cho mô hình. 








Đáp: Phương pháp ước tính giá trị phân định hay AUC cho mô hình Cox 
có thể dựa vào phương pháp do Gonen để xướng vào năm 2000 (Gonen M, et 
al. Concordance probability and điscriminatory power in proportional hazards 
regression. Biometrika 2005;92:965-970). Phương pháp này được triển khai 


trong chương trình clinfun qua hàm coxphCPE như sau: 


# Phân tích mô hình Cox 
# library(survival) 


s = coxph(Surv(fu.days, Status) ~ age + albumin + bili + 


protime, data=pbc 
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# Gọi chương trình clinfun 
1ibrary (clinfun) 


coxphCPE (s) 


> coxphCPE (s) 
CPE smooth.CPE se.CPE 
0.73263983 0.73206067 0.01521288 


Kết quả cho thấy AUC là 0.73 và sai số chuẩn là 0.015. 

Tuy nhiên, giá trị AUC trên chỉ là trung bình cho quá trình theo dõi. Chúng 
ta cũng có thể ước tính AUC theo thời gian tiên lượng bằng cách dùng hàm 
risksetAUC trong chương trình risksetROC (Heagerty PJ et al. Time- 
đependent ROC curves for censored survival data and a điagnostic marker. 
Biometrics. 2000;56(2):337-44): 

1ibrary (risksetROC) 

s = coxph(S§urv(fu.days, Status) ~ age + albumin + bili + 

protime, data=pbc) 

# Tính giá trị tiên lượng “linear predictor”: 

1p = s$linear.predictor 

tmax=4000 


#'ˆ Gọi hàm risksetAUC: 


auc = risksetAUC (Stime=pbc$fu.days, status=pbc$Status, 
marker=lp, method=”Cox”, tmax=tmax, col=”red”, lty=2) 
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Kết quả phân tích AUC trên cho thấy giá trị phân định có vẻ suy giảm theo. 
thời gian. Trong thời gian dưới 1000 ngày, mô hình tiên lượng tốt hơn so với thời 
gian trên 3000 ngày. 





Câu hỏi 13.6 Ước tính giá trị tái phân nhóm. Liên quan đến nghiên 
cứu trong câu hỏi 13.4, hãy so sánh hai mô hình tiên lượng: 


(a) mô hình 1: biến tiên lượng là age và ascites 


(b) mô hình 2: biến tiên lượng là age, ascites và albumin. 











Đáp: Như là một qui luật, mô hình (b) sẽ có giá trị tiên lượng tốt hơn mô. 
hình (a) vì mô hình (b) có nhiều biến tiên lượng hơn. Các chỉ số đánh giá và 
so sánh hai hay nhiều mô hình tiên lượng là dựa vào chỉ số AUC hoặc các chỉ 
số mới liên quan đến khái niệm “tái phân nhóm” (reclassifñcation, Pencina et al 
Evaluating the added predictive ability of a new marker: From area under the 
ROC curve to reclassifcation and beyond. Statist Med. 2008;27:157-72). Đây là 
một phát triển mới, và bạn đọc cần phải đọc bài báo trên để biết lí thuyết đẳng 
sau của phương pháp tái phân nhóm. 

Tuy nhiên, một cách để hiểu mục tiêu của phương pháp phân tích tái phân 
nhóm là so sánh hai mô hình tiên lượng trên cùng một nhóm đối tượng. Giả dụ 
rằng chúng ta có hai mô hình tiên lượng MI và M2, với mô hình MI có biến x1, 
X2 và x3; còn M2 có biến x1, x2, x3, và x4. Cả hai mô hình đểu có mục tiêu tiên 
lượng tử vong. Nếu chúng ta có kết quả tiên lượng của hai mô hình cho 4 bệnh 
nhân như sau: 




















Bệnh nhân | Giá trịtiên | Giátritiên |Ngưỡng  |NRI NRI IDI 
lượngM1 |lượngM2 | quyết định | (biến cố) | liêntục) - | (biến cố) 
thấp/cao. 
1 019 021 020 +1 +1 +0/02 
2 0.20 0419 020 li +1 -001 
3 017 0419 020 0 +I +0.02 
4 019 016 020 D +1 -003 


























Để đánh giá giá trị thực tế của một mô hình, chúng ta cần ngưỡng để xác 
định rằng bệnh nhân có nguy cơ cao hay thấp. Ở đây, ngưỡng xác định là 0.2; nói 
cách khác, nếu bệnh nhân có giá trị tiên lượng cao hơn 20% thì sẽ được xem là 
có nguy cơ cao, còn thấp hơn hay bằng 20% là nguy cơ thấp. Nếu mô hình M2 
tốt hơn MI thì nhóm bệnh nhân tử vong nên có xác suất tử vong cao hơn MI, và 
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nhóm còn sống nên có xác suất tử vong thấp hơn M1. Do đó, phương pháp phân 
tích tái phân nhóm dựa trên xác suất tiên lượng của hai mô hình để tính NRI và 
NDI như mô tả trong bảng số liệu (ví dụ) trên. 

Các chỉ số trong nhóm tái phân nhóm bao gồm IDI (integrated discrimination 
improvement) và NRI (net reclassiication index). Chỉ số IDI phản ảnh sự khác 
biệt giữa hai chỉ số AUC. NRI phản ảnh sự khác biệt về phân nhóm đối tượng 
của hai mô hình. Cả hai chỉ số có thể ước tính qua hàm TDT. TNE trong chương 
trình survTDTNRT (Uno H, et al. A unified inference procedure for a class of 
measures to assess improvement in risk prediction systems with survival data. 
§tatist Med. 2013;32:2430-42). 


1ibrary (survIDINRI) 


res = IDI.INF(indata = pbc[,c(*£u.days”,”Status”)], 


covs0 = pbc[,c(*age“,“ascites”) ], 





covs1 = pbc[, c(`age“,“ascites“,“albumin”) ], 
t0 = 10*365.25, 


npert = 300, npert.rand=NULL, seedl=NULL, 
alpha=0.05) 


1DT. TNE. OUT (res) 


> TDT.TNF.OUT (res) 

Est. Lower Upper p-value 
Mi 0.080 0.001 0.151 0.040 
M2 0.208 -0.109 0.423 0.126 
M3 0.058 -0.017 0.133 0.146 


Trong kết quả trên MI là IDI, M2 là NRI, và M3 là trung vị. Chúng ta chỉ 
quan tâm đến MI và M2. Mô hình age + ascites + albumin rõ ràng có cải tiến 
(P =0.04) về giá trị phân định so với mô hình age + ascites, tuy nhiên không có 
cải tiến về sự tái phân nhóm. Một cách để thể hiện sự cải tiến là qua biểu đồ với 
hàm IDI.INEGRAPH như sau: 


TDT. TNF. GRAPH (res) 
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Câu hỏi 13.7 Tìm mô hình “tối ưu” cho phân tích sống còn. Liên quan 
đến nghiên cứu trong câu hỏi 13.4, các biến sau đây đều có thể là "ứng viên” 
cho tiên lượng nguy cơ tử vong: age, sex, ascites, hepatom, spiders, edema, 
bili, albumin, sgot, và protime. Hãy dùng phương pháp Bayesian Model 
Averaging để tìm mô hình tối ưu. 











Đáp: Tương tự như phương pháp BMA trong mô hình hồi qui logistic, 
chúng ta sẽ dùng phương pháp BMA qua hàm bie. surv trong chương trình 
BMA để giải đáp vấn để. 

Trước hết, đọc dữ liệu vào R, tạo ra biến thời gian theo dõi (tính theo năm), 
status, và định nghĩa tập hợp biến tiên lượng: 


pbc = read.csv(*pbc.csv”) 
tảme = pbc$fu.days/365.25 
Status = ifelse(pbc$status==”đeath”, 1, 0) 


xvars = pbhc[, c(*age”, *sex”, "ascites”, "hepatom”, 
*spiders”, *edema”, "bili”, "sgot”, *protime”)] 


255 
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Gọi chương trình BMA và phân tích: 


1ibrary (BMA) 


s = bic.surv(xvars, time, Status) 


summary (s) 


imageplot .bma (s) 


>_summary (S) 


Call: 


bic.surv.data.,frame(x = xvars, surv.t = time, cens 


age 
sex 
.male 
ascites 
hepatom 
spiders 
edema 
bi1i 
sgot 
Protime 


nVar 


BIC 


post prob 


age 


.male. 





EV sp 
100.0 0.0001129 2. 
13,1 
0.0422464 
80.0 0.6375703 
100.0. 0.6740908 
13.5 0.0357393 
100.0 1,1818872 
100.0 0.0836749 
100.0 0.0056714 
95.0 0.2506628 
model 3 model 4 
1.114e-04  1.023e- 
3.029e- 


@ HH HN BÊ 


model 1 
728e-05 1.099e~-04 
.429e~01 
037e-01 8.006e-01 
.104e-01  6.709e-01 
„190e~01 * 
.132e-01 1.137e+00 
.746e-02  8.263e-02 
481e-03 5.721e-03 
.‹530e-02 2.641e-01 
? 
~1.395e+02 
0.550 
model 5 
04 1.130e-04 
01 


Status) 


model 2 
1,283e-04 


71,275e~01 


1.331e+00 
8.611e-02 
5.752e-03 
2.696e-01 


6 


~1.367e+02 
0.134 
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asciLes 


hepatom 








post prob 





Kết quả cho thấy mô hình 1 là tối ưu, gồm các yếu tố as >s„ hebatom, 
edema, bi1i, sgot và protime.. Mô hình này có xác suất hậu định là 559%. 
Mô hình 2 có xác suất hậu định tương đối thấp (13.4%). Do đó, có lẽ chúng ta s 
chọn mô hình 1 là mô hình tiên lượng tối ưu. 












Qua biểu đồ, chúng ta thấy rằng trong các yếu tố tiên lượng, sex và spiders 
là biến số ít gặp nhất trong các mô hình khả dĩ (tức có giá trị thấp nhất). 


Models selected by BMA 
age 

sex male 
ascites 
hepatom 
spiders 
edema 
bili 

sgot 


protime 





Model£ 


257 
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v;z A. 


Phân tích đa biến 
và “machine learning” 





13 (như kiểm định t, kiểm định Ki bình phương, mô hình hồi qui tuyến 

tính đơn biến và đa biến, mô hình hồi qui logistic, mô hình Cox, v.v.) 
được gọi là phân tích đơn biến. Chữ "đơn biến” ở đây có nghĩa là tất cả các 
phương pháp và mô hình trên chỉ có một biến phụ thuộc (biến y hay oufcome). 
Tuy nhiên, trong thực tế nghiên cứu khoa học, chúng ta có khi phải đối phó 
với tình huống có nhiều biến phụ thuộc, và trong tình huống này các phương 
pháp phân tích được gọi là “mô hình đa biến” (multivariate model). Cần chú ý 
sự khác biệt giữa hai mô hình hay được gọi là "đa biến” trong tiếng Việt nhưng 
có ý nghĩa hoàn toàn khác nhau: (¡) multivariate model (mô hình có nhiều 
biển phụ thuộc), và (ii) multivariable model (mô hình có một biến phụ thuộc 
nhưng có nhiều biến độc lập). Chương 14 này tập trung vào mô hình đa biến 
(multivariate model). 


T ất cả các phương pháp phân tích chúng ta học từ Chương 8 đến Chương 


Mục tiêu của phân tích đa biến là nghiên cứu mối tương quan giữa nhiều 
biến phụ thuộc, và sử dụng mối tương quan đa chiều này để phân nhóm. 

Phương pháp phân tích đa biến được ứng dụng trong rất nhiều lĩnh vực. Từ 
y khoa, môi trường, khoa học xã hội, kinh tế, giáo dục, đến khảo cổ học và ngôn 
ngữ học đều có thể áp dụng các nguyên lí và phương pháp phân tích đa biến để 
giải đáp những câu hỏi nghiên cứu phức tạp. Các mô hình chính của phân tích 
đa biến bao gồm: 
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«_ Phân tích phân định tuyến tính (linear discriminant analysis, LDA) 
«+ Phân tích thành phần (principal component analysis, PCA) 
»_ Phân tích cụm (cluster analysis, CA) 


Tất cả các phương pháp trên dựa vào nguyên lí mô hình hổi qui tuyến tính. 
Trong điểu kiện tương quan đa chiểu, các mô hình đa biến có mục tiêu chính 
là giảm số biến cần thiết. Nếu chúng ta có 3 biến X1, X2 và X3, và nếu chúng ta 
muốn dùng các biến này để phân nhóm biến Y. Giả dụ rằng XI có tương quan 
mật thiết với X2, thì XI và X2 có thể gộp thành một "component” và cùng với X3 
có thể dùng để phân nhóm Y. Chú ý rằng biến “component” ở đây cũng có thể có 
nghĩa là "laftent variable” hay "factor” trong nghiên cứu khoa học xã hội. 

Do đó, các phương pháp đa biến thường được ứng dụng trong các mô hình 
bằng máy, mà tiếng Anh gọi là *Machine Learning” (ML). (Có người dịch là "Học 
Máy”, nhưng tôi thì nghĩ dịch đúng hơn là “Mô hình hoá bằng máy”). Lí do là ở 
ý nghĩa của chữ “learning” không hẳn có nghĩa đen là 'học; mà là mô hình hoá 
(tức fitting). Tại sao learning? Thực chất của ML là tìm mô hình thích hợp từ 
đữ liệu mẫu (sample data), và dùng cái mô hình đó để tiên lượng cho quần thể 
(population) hay các mẫu dữ liệu khác. 


Quá trình “learning” gồm 2 bước: bước 1 là xây dựng hệ thống phụ thuộc 
giữa các biến số (dependencies); và bước 2 là dùng hệ phụ thuộc để tiên lượng 
cho quần thể. Ở đây, cái gọi là "hệ thống phụ thuộc” chính là mô hình hoá dữ 
liệu, tức là "đata modelization” Nói cách khác nữa, cái gọi là “learning” trong 
ML chính là “ñtting” trong thống kê học. Hiểu đúng như thế thì chúng ta dễ 
dàng thấy Machine Learning thực chất là “mô hình hoá bằng máy tỉnh” 


Có hai phương pháp mô hình hoá: có giám sát (supervised learning) và 
không có giám sát (unsupervised learning). Mô hình hoá có giám sát bao gồm 
các mô hình như hồi qui tuyến tính, linear classifcation, logistic regression, 
Cox§ regression. Mô hình hoá không giám sát bao gồm phân tích cụm (cluster 
analysis) và phân tích đa biến như PCA và factor analysis. 

Để đánh giá "accuracy”, cái “bí quyết” của ML là huấn luyện (training) và 
kiểm định (testing). Nói cách khác, ML chia một dataset ra thành hai nhóm: 
nhóm huấn luyện để mô hình hoá dữ liệu, và sau khi mô hình xong thì áp dụng 
cho nhóm thử nghiệm. Qui trình này lặp đi lặp lại rất nhiều lần theo nguyên lí 
tái chọn mẫu (bootstrap). 
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Nhiều khái niệm của ML không có gì khác với thống kê học; nếu khác thì 
chỉ là cách gọi. Chẳng hạn như ML gọi là farget, thì thống kê học gọi là oufcome 
hay response; bias của ML chính là iniercept trong thống kê học; weighí trong ML 
là hệ số hồi qui befa coeficient trong thống kê; loss fwnction trong ML là residual 
trong thống kê học; ƒeature selection trong ML thì chính là variable selection trong 
thống kê học; vân vân. Hiểu như thế thì chúng ta thấy rằng ML cũng có thể xem 
là một cách gọi khác của thống kê học hiện đại. 

Tuy nhiên, có một số khác biệt nhỏ giữa ML và khoa học thống kê. Các mô 
hình thống kê chính là cơ chế của ML. Thống kê học đặt nặng vấn để giả định 
(assumptions) trong việc xây dựng mô hình, nhưng ML thì đặt nặng độ chính 
xác của mô hình. Chẳng hạn như để xây dựng mô hình tiên lượng hồi qui tuyến 
tính, thống kê học rất quan tâm đến các giả định như phân bố chuẩn, đồng dạng, 
phương sai, và tính độc lập giữa các giá trị. Nhưng ML quan tâm nhiều đến việc 
huấn luyện mô hình của sao cho mô hình đó có thể tiên lượng chính xác khi áp 
dụng cho một quần thể khác. Nói như thế không có nghĩa là thống kê học không 
quan tâm đến độ chính xác của mô hình, mà chỉ muốn nói về ưu tiên của hai 
cách tiếp cận về mô hình tiên lượng. Ngoài ra, thống kê học quan tâm đến mô 
hình để đánh giá tấm quan trọng của yếu tố tiên lượng (qua các kiểm định thống 
kê), còn ML thì không quan tâm đến ý nghĩa thống kê của các yếu tố trong mô 
hình. Đối với ML, một yếu tố có thể không có ý nghĩa thống kê nhưng có thể là 
một yếu tố tiên lượng tốt. 


Như vậy, thống kê học và ML khác biệt chủ yếu ở yếu tố “văn hoá”: một bên 
là quan tâm đến association (liên quan) và một bên là prediction (tiên lượng). 
Trong nhiều nghiên cứu khoa học, mục tiêu là giải thích mối liên quan giữa các 
yếu tổ. "Yếu tổ” ở đây có thể là gen, là bệnh lí, hay nói theo ngôn ngữ thống kê 
là biến độc lập (X) và biến phụ thuộc (Y), hay nói theo ngôn ngữ địch tế học là 
yếu tố nguy cơ và outcome. Để giải thích mối liên quan giữa bệnh lí (Y) và yếu tố 
nguy cơ (X), chúng ta cẩn phải phát biểu một giả thuyết khoa học. Giả thuyết là 
một phát biểu mang tính tiên lượng về mối liên quan giữa Y và X. Từ giả thuyết 
khoa học, chúng ta triển khai thành giả thuyết thống kê. Từ giả thuyết thống kê, 
chúng ta triển khai thành mô hình thống kê. Đã nói là “mô hình” thì phải có hàm 
số, và ở đây là tìm hàm số của X để giải thích mối liên quan giữa Y và X. Hàm 
số có thể là tuyến tính (ví dụ như mô hình hồi qui tuyến tính) hay phi tuyến 
tính. Sau đó, chúng ta dùng đữ liệu thu thập từ thí nghiệm để ước tính tham 
số của mô hình thống kê. Qua ước tính tham số và kiểm định thống kê (test of 
signifcance), chúng ta có thể biết X có liên quan với Y hay không, và mức độ 
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liên quan cao thấp ra sao. Như vậy, toàn bộ qui trình nghiên cứu, từ phát biểu 
giả thuyết đến kiểm định thống kê, là một quá trình đi tìm mối liên quan, hay 
nói theo thuật ngữ dịch tế học lâm sàng là đi tìm association (hoặc có khi để cập 
đến là relationship). 

Với ML, chúng ta có thể đi một bước xa hơn association. Bước đó là 
prediction - tiên lượng (hay dự báo). Với ML, chúng ta có thể tiên lượng biến cố 
xảy ra trong tương lai. Phân tích association cho phép chúng ta phát biểu chung 
về mối liên quan giữa X và Y. Phân tích prediction cho phép chúng ta tiên lượng 
giá trị của Y cho mỗi cá thể (individual) nếu chúng ta biết giá trị X của cá thể đó. 

Nhưng tiên lượng tương lai có thể đúng, có thể sai. Do đó, ML có hẳn 
một loạt "thủ thuật” để đánh giá khả năng tiên lượng của một mô hình thống 
kê. Đối với biến liên tục, cách đánh giá mô hình của ML bao gồm những thủ 
thuật có tên khó hiểu là "loss function?, nhưng trong thực tế đó là phân tích 
đao động dư (residual analysis) mà ai học thống kê cũng đều biết. Đối với biến 
outcome là biến phân nhóm (như có hay không có bệnh), ML tính các chỉ số 
gọi la “accuracy” trong cái gọi là "confusion matrix? mà người làm dịch tễ học 
ai cũng biết đó chính là độ nhạy (sensitivity) và độ đặc hiệu (specificity). Cũng 
như dịch tế học, ML cũng dùng AUC để đánh giá mô hình tiên lượng. Nhưng 
ML chưa/không quan tâm đến calibration và reclassifñcation trong việc đánh 
giá mô hình tiên lượng. 





Nhưng ML có những đóng góp quan trọng trong việc kiểm định mô hình 
tiên lượng. Trước đây, thống kê học chỉ dừng ở những phương pháp như testing / 
validation hay bootstrap, nhưng ML cung cấp cho chúng ta hàng loạt phương 
pháp rất hấp dẫn và cực kì có ích cho việc phân tích dữ liệu lớn. Những phương 
pháp đó bao gồm ranđom ƒorest, neural network, k-nearest neighbowrs, partial 
least squares, boosted generalized additive model, support vector machine (thực 
chất là hồi qui tuyến tính mở rộng), classjfication, v.v. Trong thực tế, những 
phương pháp này cũng xuất phát hoặc xây dựng trên lí thuyết thống kê, nhưng 
có giao thoa với khoa học máy tính. 

Những phương pháp trên rất có ích trong thời đại dữ liệu lớn. Ngày xưa, 
giới khoa học thường làm nghiên cứu ở qui mô tương đối mà theo đó số biến 
độc lập (independent variables) ít hơn số cỡ mẫu. Nhưng ngày nay, nhiều nghiên 
cứu mà số biến độc lập cao gấp ngàn lần số cỡ mẫu. Chẳng hạn như trong nghiên 
cứu gồm 100 người bệnh và 100 người không bệnh, mỗi cá nhân được phân tích 
khoảng 500,000 biến thể gen. Đây là vấn để được gọi tắt là p >> n hay “curse of 
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dimensionality” Trong các nghiên cứu này (ngày càng phổ biến), các phương 
pháp thống kê cổ điển không còn thích hợp nữa, và các phương pháp ML cung 
cấp cho chúng ta một số giải pháp rất hấp dẫn. 


.** 





Câu hỏi 14.1 Mô hình phân tích linear discriminant (LDA). Số liệu 
trong file “wines.csv” (https://archive.ics.uciedu/ml/datasets/wine) phản 
ảnh các đặc điểm của 3 loại rượu sản xuất ở Ý. Dữ liệu có 13 biến như sau: 


Type: Loại rượu vang (1, 2, 3) 
Alcohol: Nồng độ alcohol 
Malic: acid malic 

Ash: tro 

Alcalinity 

Magnesium 

Phenols 

Elavanoids 
Nonffavanoids 
Proanthocyanins 

Color 

Hue 

Dilution 

Proline 


Hãy thực hiện phân tích phân định tuyến tính dùng các biến số trên để 
phân biệt 3 loại rượu. 











Đáp: Mô hình LDA (do Ronald Fisher phát triển năm 1936), dựa trên ý 
tưởng tìm ra những hàm số để mô tả mối tương quan giữa các biến số. Chúng ta 
sẽ sử dụng hàm 1da trong chương trình MASS để tìm các hàm số này. Trước hết, 
chúng ta đọc đữ liệu vào R: 
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A Ơ đ 6N 


A ơn & 6N 


wine 


read.csv (wines .csv”, 


head (wine) 


> head(wine) 


Type Alcohol Malic 


1 
1 
1 


14, 
13. 
13. 
14, 
13. 
14. 


1. 
đà 
Là) 


71 
T8 
36 


.95 
-59 
-T76 


NBÓN MÔN BNN 


header=T) 


Ash Alcalinity Magnesium Phenols Flavanoids 


43 
14 
„87 
50 
87 
-45 


15.6 
11.2 
18.6 
16.8 
21.0 
15.2 


Nonflavanoids Proanthocyanins Color 


1ibrary (MASS) 


wida 


wlida 


0.28 
0.26 
0.30 
0.24 
0.39 
0.34 


2.29 
1.28 
2.81 
2.18 
1.82 
1,97 


5.64 
4.38 
5.68 
1.80 
4.32 
6.75 


127 
100 
101 
113 
118 
112 


2.80 
2.65 
2.80 
3.85 
2.80 
3.27 


Hue Dilution Proline 


1.04 
1.05 
1.03 
0.86 
1.04 
1.05 


3.92 
3.40 
3.17 
3.45 
2.93 
2.85 


1065 
1050 
1185 
1480 

135 
1450 


1đa (wine$Type ~ wine§$Alcohol + wine§Malic 
+ wine§Ash + wine§Alcalinity + wine§Magnesium + 
wine§Phenols + wine§Flavanoids + wine§Nonflavanoids 
+ wine§Proanthocyanins + wine§Color + wine§Hue + 
wine$Dilution + wine§Proline) 


3. 


0 CN 0 0 


06 
T6 
.24 
49 
69 
-39 


Kết quả của hàm trên (xem dưới đây) mô hình nhận dạng ra hai hàm (hay 
hai latent variables) chính là LDI1 và LD2. Hai biến này giải thích 100% phương. 
sai của dữ liệu, với LDI giải thích gần 69% phương sai. 
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Coefficients of linear discriminants: 


LD1 
wine$Alcohol ~0.403399781 0. 
wine$Malic 0.165254596 0. 
wine$Ash -0.369075256 2. 
wine$Alcalinity 0.154797889 -0. 
wine$Magnesium ~0.002163496 ~0. 
wine$Phenols 0.618052068 -0. 
wine$Flavanoids ~1.661191235 -0. 


1D2 
8717930699 
3053797325 
3458497486 
1463807654 
0004627565 
0322128171 
4919980543 


wine$Nonflavanoids ~1.495818440 -1.6309537953 


wine$Proanthocyanins 0.134092628 -0. 
wine$Color 0.355055710 0. 
wine$Hue ~0.818036073 -1. 
wine$Di1ution -1.157559376 0, 
wine$Proline ~0.002691206 0. 


Proportion o£ trace: 
LDI1  LD2 
0.6875 0.3125 


3070875776 
2532306865 
5156344987 
0511839665 
0028529846 


Kế đến chúng ta có thể dùng hàm trên để tính giá trị tiên lượng cho loại 


Tượu: 


wpredict = predict (wlda) 


Vẽ hình phân định với hàm LDI: 


1dahist (data=wpredict$x[,1], g=wine$Type) 
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4... 0 3 4 6 
group1 

4“. aỶA a2 0 ca 4C 6 
goup2 

4“. 2 08 2 4 6 
gorp3 


Hàm LDI có vẻ phân định khá tốt 3 loại rượu. Chúng ta thử vẽ hình phân 
định với hàm LD2: 
1dahist (data=wpredict$x[,2], g=wine$Type) 
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Bây giờ chúng ta thử xem xét khả năng phân định 3 loại rượu dựa vào LDI 
và LD2 qua biểu đồ dưới đây: 
bplot (wpredict§x[,1], wpredict$x[,2]) 


text (wpredict$x[,1], wpredict$x[,2], wine§Type, cex=0.7, 
pos=4, col=”red”) 

















x 
^ 
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Đ 
H 
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wpredict$x(,1] 


Chúng ta có thể so sánh kết quả tiên lượng với thực tế. Trước hết, tính xác 
suất tiên lượng: 

wlda = lda(wine$Type ~ wine$Alcohol + wine$Malic 

+ wine§Ash + wine§Alcalinity + wine§Magnesium + 

wine$Phenols + wine$Flavanoids + wine$Nonflavanoids 

+ wine$Proanthocyanins + wine$Color + wine$Hue + 

wine$Dilution + wine$Proline) 


w.pred = predict(wlda, wine[, 2:14]) 


table (wine$Type, predict (wlda) $class 
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> table(wine§Type, predict (w1da) §class) 


3. 5 
159 0 0 
2 071 0 
3 0 048 


Kết quả tiên lượng rất nhất quán với thực tế! 
Dùng 1d£a 


Thật ra, trong R còn có một chương trình khác cũng có thể dùng cho phân. 
tích phân định tuyến tính: 1 £da. Với chương trình 1£da chúng ta có thể thể 
hiện kết quả bằng biểu đồ với chất lượng cao: 

# Chọn biến tiên lượng trong dữ liệu wine, tất cả chỉ trừ biến 1 là biến outcome: 

xvars = wine[, -1] 


# Chọn biến outcome, tức loại rượu: 
yvar = wine[, 1] 

yvar = as.factor (wine$Type) 
wine§Type = as.factor (wine§Type) 


# Gọi chương trình lída: 
1ibrary (1£da) 


m = l1fda(xvars, yvar, r=4, metric=“plain”) 


autoplot (m, data=wine, frame=T, frame.colour=“Type”) 
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[BI 








Câu hỏi 14.2 Mô hình phân tích thành phần (principal component 
analysis). Tiếp tục câu hỏi 14.1, hãy thực hiện phân tích cụm để phân biệt 3 
loại rượu. 











Đáp: Trước hết, chúng ta cần phải chuẩn hoá dữ liệu sao cho có trung bình 
0 và phương sai 1 qua hàm scale: 


1ibrary (car) 
s.wine = as.đata.frame (scale (wine[2:14])) 
wpca = prcomp(s.wine) 


wpca 


Hàm prcomp như trên nhận dạng một số component (PC) quan trọng như. 
sau. Chú ý mỗi PC là hàm của 13 yếu tố (từ Alcohol đến Proline). 


Ví dụ như PCI = -0.144* Alcohol + 0.245*Malic + ... -0.287*Proline. 
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> wpca 


Standard deviations (1, 


-«.. P13): 


[1] 2.1692972 1.5801816 1.2025273 0.9586 

[7] 0.7423128 0.5903367 0.5374755 0.5009 
[13] 0.3215244 
Rotation (n x k) = (13 x 13): 

PC1 ?C2 
Alcohol ~0.144329395 0.483651548 
Malic 0.245187580 0.224930935 
Ash 0.002051061 0.316068814 
Alcalinity 0.239320405 ~0.010590502 
Magnesium ~0.141992042 0.299634003 
Phenols ~0.394660845 0.065039512 
Flavanoids ~0.422934297 -0.003359812 
Nonflavanoids 0.298533103 0.028779488 
Proanthocyanins -0.313429488 0.039301722 
€olor 0.088616705 0.529995612 
Hue ~0.296714564 ~0.279235148 
Dilution ~0.376167411 -0.164496193 
Proline ~0.286752227 0.364902832 
PC5 PC6 

Alcohol ~0.26566365 0.21353865 -l 
Malic 0.03521363 0.53681385 
Ash ~0.14302547 0.15447466 - 
Alcalinity 0.06610294 -0.10082451 -i 
Magnesium 0.72704851 0.03814394 
Pheno1s ~0.14931841 -0.08412230 ~{ 
Flavanoids ~0.10902584 ~0.01892002 ~{ 
Nonflavanoids -0.50070298 -0.25859401 0 
Proanthocyanins 0.13685982 -0.53379539 
Color ~0.07643678 ~0.41864414 ~I 
Hue -0.17361452 0.10598274 
Dilution ~0.10116099. 0.26585107 ~ 
Proline ~0.15786880 0.11972557 


313 0.9237035 0.8010350 
0170.4751722 0.4108165 


Pc3 Pc4 
~0.20738262 0.01785630 
0.08901289 -0.53689028 
0.62622390 0.21417556 
0.61208035 ~0.06085941 
0.13075693 0.35179658 
0.14617896 ~0.19806835 
0.15068190 ~0.,15229479 
0.17036816 0.20330102 
0.14945431 -0.39905653 
~0.13730621 ~0.06592568 
0.08522192 0.42777141 
0.16600459 ~0.18412074 
~0.12674592 0.,23207086 


PC? 
0.05639636 0. 
0.42052391 0. 
00.14917061 -0. 
0.28696914 0. 
0.32288330 -0. 
0.02792498 -0.40593409 
0.06068521 -0.18724536 
„59544729 ~0.23328465 
0.37213935 


Pc8 
39613926 
06582674 
17026002 
42797018 
15636143 


0.36822675 
0.22771214 -0.03379692 
0.23207564  0.43662362 
0.04476370 ~0.07810789 


0.07680450 0.12002267 
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?cs 


Alcohol -0.50861912 0. 
Malic 0.07528304 -0. 
Ash 0.30769445 ~0. 
Alcalinity -0.20044931 0. 
Magnesium. -0.27140257 0. 
Phenols ~0.28603452 -0. 
Flavanoids ~0.04957849 ~0, 


PC10 PC11 PC12 
21160473 0.22591696 -0.26628645 
30907994 -0.07648554 0.12169604 
02712539  0.49869142 -0.04962237 
05279942 -0.47931378 ~0.05574287 
06787022 -0.07128891 0.06222011 
32013135 -0.30434119 -0.30388245 
16315051 0.02569409 -0.04289883 


Nonflavanoids ~0.19550132 0.21553507 -0.11689586 0.04235219 


Proanthocyanins 0.20914487 0. 


Color ~0.05621752 ~0. 
Hue ~0.08582839 ~0. 
Di1uEion -0.13722690 0. 
Proline 0.57578611 0. 


sunmary (wpca) 


> summary (wpca) 
Tmportance o£ components3s: 
P1 


§tandard deviation 2.169 1. 
Proportion o£ Variance 0.362 0. 


Cumulative Proportion 0.362 0. 


PCT 
§tandard deviation 0.74231 
Proportion of Variance 0.04239 
Cumulative Proportion 0.89337 


PC12 
Standard deviation 0.41082 
Proportion o£ Variance 0.01298 


Cumulative Proportion 0.99205 


screenplot (wpca, type=”lines”) 


13418390 0.23736257 -0.09555303 
29077518 -0.03183880 0.60422163 
52239889 0.04821201 0.25921400 
52370587 ~0.04642330 0.60095872 
16211600 -0.53926983 ~0.,07940162 


PC2 Pc3 Pc4 PC5 Pc6 
5802 1.2025 0.95863 0.92370 0.80103 
1921 0.1112 0.07069 0.06563 0.04936 
5541 0.6653 0.73599 0.80162 0.85098 


PC8 PC9  PC10 PC11 
0.59034 0.53748 0.5009 0.47517 
0.02681 0.02222 0.0193 0.01737 
0.92018 0.94240 0.9617 0.97907 


PC13 
0.32152 
0.00795 
1.00000. 
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'Variances 





Kết quả trên cho thấy 5 component đầu (PC1, PC2,..., PC5) giải thích 80% 





phương sai của dữ liệu. Chúng ta có thể dùng hàm autop1ot trong chương 
trình qg£orti £y để thể hiện kết quả phân nhóm dựa trên PCI và PC2: 


# wpca = prcomp(s.wine) 


# Tạo biến mới “type” với đặc tính “factor”: 


wine§type = as.factor (wine$Type) 


# Gọi chương trình ggfortify và dùng hàm autoplot với tô màu theo “type”: 
1ibrary (ggfortify) 


autoplot (wpca, data=wine, colour=”type”) 
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01< * 


41- 





ạt si Dã 


g0 
PCI 


Kết quả trên cho thấy chúng ta có thể chỉ cẩn 2 component (PC1 và PC2) 
để phân nhóm ba loại rượu khá tốt. Có lẽ còn tốt hơn mô hình phân định tuyến 
tính. 





Câu hỏi 14.3 Phân tích cluster. Quay lại dữ liệu về rượu trong câu hỏi 
14.1, hãy thực hiện một phân tích cụm (cluster) để biết các đặc điểm trên 
phân cụm ba loại rượu ra sao. 











Đáp: Thay vì dùng mô hình phân định tuyến tính hay mô hình phân tích 
thành phần, chúng ta có thể dùng mô hình phân tích cụm cho cùng mục tiêu. 
Phân tích cụm có thể thực hiện qua chương trình c1ustez trong R qua các 
bước sau đây: 

Bước 1: đọc đữ liệu vào R: 


wine = read.csv(*wines.csv“, header=T) 


1ibrary (cluster) 

Bước 2: chuẩn hoá đữ liệu để tất cả các biến có giá trị trung bình 0 và phương 
Sai ]: 

wstd = scale(wine[,-1]) 
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# Tính khoảng cách qua hàm dist: 

d = dist(wstd, method = "*euclidean”) 

Chúng ta có thể dùng hàm hc1ust để thực hiện mô hình phân tích cụm. 
đa tầng (còn gọi là hierarchical cluster analysis). 


hc = hclust(d, method=“complete”) 


pliot(hc, labels = FALSE, hang = -1) 


rect.hclust (hc, k = 3, border = 2:4) 


Cluster Dendrogram 

















Height 



































hclust (*, “complete") 


Tuy nhiên, ở đây, chúng ta sẽ dùng phương pháp “partitioning around 
medoids” (pam) để tìm số cụm tối ưu. Phương pháp này có thể thực hiện 
qua hàm pam trong chương trình c1uster, và dùng hàm autop1ot trong 
ggforti £y để thể hiện kết quả: 
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wpam=pam(d, 3) 


# 1ibrary(ggfortify) 


# Chú ý wine[-L] có nghĩa là loại bỏ cột 1 tức là cột loại rượu, biến outcome. 


autoplot (pam (wìne[~-1], 3), frame = TRUE, frame.type = 'norm") 


cluster 
1 
2 


3 








Câu hỏi 14.4 Machine learning. Hãy dùng phương pháp “random 
forest” để phân nhóm 3 loại rượu dựa trên 13 yếu tố trong Câu hỏi 14.1. 











Đáp: Phương pháp “Rừng ngẫu nhiên” (random forest) là một dạng hồi qui 
tuyến tính đa biến có thể dùng trong việc phân loại và tiên lượng rất tốt. Chúng 
ta sẽ triển khai phương pháp random forest (RE) qua chương trình caret trong R 
(Max Kuhn. Building predictive models in R using the caret package. Journal of 
Statistical Softare 2008). 
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“Trước hết, chúng ta đọc đữ liệu vào R và gọi chương trình caret: 


1ibrary (caret) 


wine = read.csv (*wines.Csv” 

Theo phương thức ML, chúng ta phải chia dữ liệu làm đữ liệu nhỏ: một 
nhóm gọi để xây dựng mô hình (tạm gọi là tra in) và một nhóm để kiểm định 
mô hình đã xây dựng (tạm gọi là test). Cách phân chia nhóm ngẫu nhiên dựa 
trên cơ sở biến phân loại (tức Type trong nghiên cứu). Trước hết, định nghĩa 
Type là biến *factor?, sau đó chia thành 2 nhóm: 60% cho train và 40% cho 
test: 


wine$Type = as.factor (wine§Type) 

index = createDataPartition (y=wine$Type, p=0.6, 1list=F) 
train = wine[index, ] 

test = wine[-index, ] 


control = trainControl (method=”cv”, number=10) 


Kế đến, chúng ta dùng phương pháp RF để “huấn luyện” mô hình trong dữ 
liệu train: 


fit.train = train(Type ~ Alcohol + Malic + Ash + 
Alcalinity + Magnesium + Phenols + Flavanoids + 
Nonflavanoids + Proanthocyanins + Color + Hue + Dilution 
+ Proline, data=train, method=“rf”, trControl=eontrol 


fit.train 


> fit.train 


Random Forest 


108 samples 
13 predictor 
3 classes: W1, 12, v3 
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No pre-processing 
Resampling: Cross-Validated (10 fold) 
Summary of sample sizes: 97, 98, 97, 97, 97, 97, 


Resampling results across tuning parameters: 


mtry Accuracy Kappa 
2 0.9818182 0.9725000 
7 0.9636364 0.9451698 
13 0.9272727 0.8896476 


Kết quả trên cho thấy mô hình có khả năng tiên lượng rất tốt, vì độ chính. 
xác lên đến 98.2%. Tuy nhiên, chúng ta cẩn phải kiểm định mô hình này trong. 
đữ liệu test. Để kiểm định, chúng ta cần phải tính giá trị tiên lượng bằng hàm 
prediect dựa trên mô hình trong crain và đưa kết quả vào đữ liệu test: 


pred = predict(fit.train, newdata=test 
confusionMatrix(test§Type, pred 


> confusionMatrix(testậType, pred 


Confusion Matrix and Statistics 


Reference 
Prediction 1 2 3 


123 0 0 
2 026 2 
3 0 019 


Overall Statistics 


Accuracy : 0.9714 
95% CI : (0.9006, 0.9965) 
No Information Rate : 0.3714 
P-Value [Acc > NIR] : < 2.2e-16 
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HNỚG: 


Phân tích tổng hợp 
(meta-analysis) 





cao” để để cao tỉnh thần hợp lực, đoàn kết nhằm hoàn tất một công việc 

quan trọng cần đến nhiều người. Trong nghiên cứu khoa học nói chung, 
và y học nói riêng, nhiều khi chúng ta cần phải xem xét nhiều kết quả nghiên cứu 
từ nhiều nguồn khác nhau để giải quyết một vấn để cụ thể. 


D ân gian có câu “Một cây làm chẳng nên non, ba cây chụm lại nên hòn núi 


Trong mấy năm gần đây, trong y văn xuất hiện khá nhiều nghiên cứu dưới 
đanh mục “meta-analysis) mà tôi tạm dịch là phân tích tổng hợp. Nguồn gốc và 
ý tưởng tổng hợp dữ liệu khởi đầu từ thế kỉ 17, chứ chẳng phải là một ý tưởng 
mới. Thời đó, các nhà thiên văn học nghĩ rằng cần phải hệ thống hoá dữ liệu từ 
nhiều nguồn để có thể đi đến một quyết định chính xác và hợp lí hơn các nghiên 
cứu riêng lẻ. Nhưng phương pháp phân tích tổng hợp hiện đại phải nói là bắt 
đầu từ hơn nửa thế kỉ trước trong ngành tâm lí học. Năm 1952, nhà tâm lí học 
trứ đanh Hans J. Eysenck tuyên bố rằng tâm lí trị liệu (psychotherapy) chẳng có 
hiệu quả gì cả. Hơn hai mươi năm sau, năm 1976, Gene V. Glass, một nhà tâm lí 
học người Mĩ, muốn chứng minh rằng Eysenck sai, nên ông tìm cách thu thập 
đữ liệu của hơn 375 nghiên cứu về tâm lí trị liệu trong quá khứ, và tiến hành 
tổng hợp chúng bằng một phương pháp mà ông đặt tên là “meta-analysis": Qua 
phương pháp phân tích này, Glass tuyên bố rằng tâm lí trị liệu có hiệu quả và 
giúp ích cho bệnh nhân. 
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Phân tích tổng hợp - hay meta-analysis - từ đó được các bộ môn khoa học. 
khác, nhất là y học, ứng dụng để giải quyết các vấn để như hiệu quả của thuốc 
trong việc điểu trị bệnh nhân. Cho đến nay, các phương pháp phân tích tổng hợp 
đã phát triển một bước dài, và trở thành một phương pháp chuẩn để thẩm định 
các vấn để gai góc, các vấn đề mà sự nhất trí giữa các nhà khoa học vẫn chưa đạt 
được. Có người xem phân tích tổng hợp có thể cung cấp một câu trả lời sau cùng 
cho một câu hỏi y học. Nhìn chung, phân tích tổng hợp là một phương pháp rất 
có ích cho chúng ta giải quyết những vấn để còn trong vòng tranh cãi. Phân tích 
tổng hợp cũng có thể giúp cho chúng ta nhận ra những lĩnh vực nào cần phải 
nghiên cứu thêm hay cần thêm bằng chứng. 

Hai thuật ngữ mà bạn đọc thường gặp trong các phân tích tổng hợp là ñxed- 
effects (tạm dịch là ảnh hưởng bất biến) và random-effects (ảnh hưởng biến 
thiên). Để hiểu hai thuật ngữ này tôi sẽ đưa ra một ví dụ tương đối đơn giản. 
Hãy tưởng tượng chúng ta muốn ước tính chiểu cao của người Việt Nam trong 
độ tuổi trưởng thành (18 tuổi trở lên). Chúng ta có thể tiến hành 100 nghiên 
cứu tại nhiều địa điểm khác nhau trên toàn quốc; mỗi nghiên cứu chọn mẫu 
(samples) một cách ngẫu nhiên từ 10 người đến vài chục ngàn người; và cứ mỗi 
nghiên cứu chúng ta tính toán chiểu cao trung bình. Như vậy, chúng ta có 100 
số trung bình, và chắc chắn những con số này không giống nhau: một số nghiên 
cứu có chiểu cao trung bình thấp, cao hay ... trung bình. Phân tích tổng hợp là 
nhằm mục đích sử dụng 100 số trung bình đó để ước tính chiểu cao cho toàn thể 
người Việt. Có hai cách để ước tính: ñxed-effects meta-analysis (phân tích tổng 
hợp ảnh hưởng bất biến) và random-effects meta-analysis (phân tích tổng hợp 
ảnh hưởng biến thiên). 

Phân tích tổng hợp ảnh hưởng bất biến xem sự khác biệt giữa 100 con số 
trung bình đó là do các yếu tố ngẫu nhiên liên quan đến mỗi nghiên cứu (còn gọi 
là within-study variance) gây nên. Cái giả định đẳng sau cách nhận thức này là: 
nếu 100 nghiên cứu đó đều được tiến hành y chang nhau (như có cùng số lượng 
đổi tượng, cùng độ tuổi, cùng tỉ lệ giới tính, cùng chế độ dinh dưỡng, v.v...) thì 
sẽ không có sự khác biệt giữa các số trung bình. 

Nếu chúng ta gọi số trung bình của 100 nghiên cứu đó là x,, x„... x,„, quan 
điểm của phân tích tổng hợp ảnh hưởng bất biến cho rằng mỗi x, là một biến 
số gồm hai phần: một phần phản ánh số trung của toàn bộ quần thể dân số 
(tạm gọi là ẤM), và phần còn lại (khác biệt giữa x, và M là một biến số e„ Nói 
cách khác: 
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xi. M+*e, 


*,= M+e, 


Xie= ÄMÍ+ tua 
Hay nói chung là: 
x= M+e, 


Tất nhiên e, có thể < 0 hay > 0. Nếu AM và e độc lập với nhau (tức không có 
tương quan gì với nhau) thì phương sai của x,(gọi là var|x,]) có thể viết như sau: 


var[x,] = var[M]+var[e,] = 0 + sệ 

Chú ý var[M] = 0 vì M là một hằng số bất biến, số là phương sai của ø„ Mục 
đích của phân tích tổng hợp là ước tính M và sỷ. 

Phân tích tổng hợp ảnh hưởng biến thiên xem mức độ khác biệt (còn gọi 
là variance hay phương sai) giữa các số trung bình là do hai nhóm yếu tố gây 
nên: các yếu tố liên quan đến mỗi nghiên cứu (within-study variance) và các yếu 
tố giữa các nghiên cứu (between-study variance). Các yếu tố khác biệt giữa các 
nghiên cứu như địa điểm, độ tuổi, giới tính, dinh dưỡng, v.v... cẩn phải được 
xem xét và phân tích. Nói cách khác, phân tích tổng hợp ảnh hưởng biển thiên 
đi xa hơn phân tích tổng hợp ảnh hưởng bất biến một bước bằng cách xem xét 
đến những khác biệt giữa các nghiên cứu. Do đó, kết quả từ phân tích tổng hợp 
ảnh hưởng biến thiên thường “bảo thủ” hơn các phân tích tổng hợp ảnh hưởng 
bất biến. 

Quan điểm của phân tích tổng hợp ảnh hưởng biến thiên cho rằng mỗi 
nghiên cứu có một giá trị trung bình cá biệt phải ước tính, gọi là m„ Do đó, x,là 
một biến số gồm hai phần: một phần phản ảnh số chung của quần thể mà mẫu 
được chọn (mm, chú ý ở đây có chỉ từ ¡ để chỉ một nghiên cứu riêng lẻ ¡), và phần 
còn lại (khác biệt giữa x, và mm, là một biến số e,. Ngoài ra, phân tích tổng hợp ảnh 
hưởng biến thiên còn phát biểu rằng mm, dao động chung quanh số tổng trung 
bình M bằng một biến ngẫu nhiên z„. Nói cách khác: 

x.=m,+e, 
Trong đó: 


m.=M+e, 
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Thành ra: 
x,=M+eE,+e, 
Và phương sai của x, bây giờ có hai thành phần: 


var[ x, ]= var[M ]+ var[ e, |+ var[e, ]=0+s¿ + sẻ 


Như có thể thấy qua công thức này, sẻ phản ánh độ dao động giữa các nghiên 
cứu (between-study variation), còn số phản ánh độ đao động trong mỗi nghiên 
cứu (within-study variation). Mục đích của phân tích tổng hợp ảnh hưởng biến 
thiên là ước tính AM, s và sẻ. 

Nói tóm lại, phân tích tổng hợp ảnh hưởng bất biến và phân tích tổng hợp 
ảnh hưởng biến thiên chỉ khác nhau ở phương sai. Trong khi phân tích tổng hợp 
bất biến xem s‡ = 0, thì phân tích tổng hợp biến thiên đặt yêu cầu phải ước tính 
s¿. Tất nhiên, nếu s¿ = 0 thì kết quả của hai phân tích này giống nhau. Trong 
R có chương trình meta£or rất có ích cho phân tích tổng hợp, và chúng ta sẽ 
dùng chương trình này để thực hiện một số phân tích tổng hợp. 


...* 





Câu hỏi 15.1 Phân tích tổng hợp biến nhị phân - bổ sung calcium 
và vitamin D (CaD) và gãy cổ xương đùi. Bảng dưới đây trình bày dữ liệu 
của 9 nghiên cứu lâm sàng đối chứng ngẫu nhiên (RCT) về hiệu quả của bổ 
sung CaD trong việc giảm nguy cơ gãy cổ xương đùi. Mỗi nghiên cứu có hai 
nhóm: nhóm bổ sung CaD và nhóm chứng (control). Bảng dưới đây trình 
bày số liệu cho mỗi nghiên cứu: 

(1) treat.events: số ca gãy xương trong nhóm CaD. 

(2) treat.n: số bệnh nhân trong nhóm CaD 

(3) control.events: số ca gãy xương trong nhóm chứng 

(4) control.n: số ca gãy xương trong nhóm chứng. 


Hãy thực hiện một phân tích tổng hợp để ước tính tỉ số nguy cơ (risk 
ratio, RR) cho tất cả 9 nghiên cứu. 

















Authors treat.events | treat.n control.events | control.n 
Chapuy (1992) 80 1387 110 1403 
Dawson-Hughes (1997) 0 187 1 202 
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Chapuy (2002) 27 389. 2 194 
Harwood (2004) 1 75 1 37 

Avenell (2004) 1 35 1 35 

Grant (2005) 46 1306. 4 1332 
Porthouse (2005) 8 1321 17 1993 
Jackson (2006) 175 18176 199 18106 
Salovaara (2010) 4 1586. 2 1609. 








Đáp: Chúng ta cẩn phải ước tính tỉ số nguy cơ (RR) cho mỗi nghiên cứu. 
Chẳng hạn như nghiên cứu Chapuy (1992), RR sẽ là (80/1387) / (110 / 1403) 
= 0.74. Ngoài ra, còn phải tính phương sai của logRR. Sau đó, tính RR cho tất 
cả nghiên cứu. Chúng ta sẽ thực hiện phân tích qua chương trình metafor 
(Viechtbauer W. Conducting Meta-Analyses in R with the metafor Package. J 
§tatist Software 2010;36:3). Trước hết, chúng ta cần nhập dữ liệu vào R: 


study = c(*Chapuy (1992)”, *Dawson-Hughes 


*"Chapuy (2002”, *Harwood (2004)”, 


*Grant (2005”, *Porthouse (2005)”, 


*Salovaara (2010)”) 


treat.events = c(80, 0, 27, 1, 1, 
treat.n = c(1387, 187, 389, 75, 35, 
control.events = c(110, 1, 21, 1, 


"Avenell 
Jackson 


46, 


1306, 


1ụ 


8, 


41, 


(1997)“, 


175, 


1321, 


11, 


4) 


18176, 


199, 


(2004”, 
(2006)”, 


2) 


1586) 


control.n = c(1403, 202, 194, 37, 35, 1332, 1993, 18106, 1609) 


cad = data.£frame(study, treat.events 


events, control.n) 


# Kiểm tra dữ liệu: 


> cad 


treat.n, 


control. 


study treat.events treat.n control.events control.n 


1 Chapuy (1992) 80 1387 
2 Dawson-Hughes (1997) 0 187 
3 Chapuy (2002 21 389 
4 Harwood (2004) 1 75 


110 
1 
bài 
1 


1403 
202 
194 

37 
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5 Avenell (2004 1 35 1 35 
6 Grant (2005 46 1306 41 1332 
7 Porthouse (2005) 8 1321 17 1993 
8 Jackson (2006) 175 18176 199 18106 
9 Salovaara (2010) 4 1586 2 1609 

# Gọi chương trình metafor: 

1ibrary (metafFor) 

# Tính effect size là RR: 


es = escalc(measure = «RR», ai = treat.events, bỉ 
= treat.n-treat.events, cỉ = control.events, di = 
contro1.n-control.events, đata = cad, append = T 


Hàm escale ước tính tỉ số nguy cơ (RR) và phương sai cho mỗi nghiên 
cứu và đưa kết quả tính toán vào đối tượng "es” Thật ra, RR được hoán chuyển 
sang đơn vị log, nên kết quả tính toán là logRR (tức biến "yi”) và phương sai của 
logRR (biến "vi"): 

> es[, c(«yi», «viw)] 

vỉ ví 
1 -0.,3070 0.0202 
2 -1.,0218 2.6564 
3 -0.4444 0.0769 
4 -0.7066 1.9596 
50.0000 1.9429 
6 0.1348 0.0446 
7 -0.3425 0.1826 
8 -0.1324 0.0106 
90.7075 0.7487 


Phương sai “vi” được xem như là trọng số của mỗi nghiên cứu. Sau đó, 
chúng ta dùng hàm rma để ước tính logRR cho 9 nghiên cứu (mô hình random 
effects). 


re.model = rma(yi, vi, data = es) 


summary (re.model) 


Kết quả phân tích là: 
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> summary (re.mode1l) 


Random-Effects Model (k = 9; tau^2 estimator: REML) 


logLik deviance AIC BIC AICc 
-4.8454 9.6907 13.6907 13.8496 16.0907 


tau^2 (estimated amount of total heterogeneity): 0 (SE = 


0.0186) 
tau (square root of estimated tau^2 value) : 0 
1^2 (total heterogeneity / total variability):  0.00% 


H^2 (total variability / sampling variability): 1.00 


Test for Heterogeneity: 
Q(df = 8) = 5.7511, p-val = 0.6751 


Model Results: 


estimate se Zzval pval  cỉi.Ib  cỉ.ub 
-0.1714 0.0731 -2.3465 0.0189 -0.3147 -0.0282 


Signif. codes: 0 ***** 0,001 **** 0.01 *** 0,05 *.°0,11°1 


Kết quả trên cho thấy logRR trung bình của 9 nghiên cứu là -0.171, hay nói 
cách khác, RR = exp(-0.171) = 0.84. Khoảng tin cậy 95% có thể tính là exp(-0.171 
~ 1.96*0.073) = 0.73 đến exp(-0.171 + 1.96*0.073) = 0.97. Trị số P = 0.019. Chỉ số 
1^2 = 0% cho thấy không có khác biệt (heterogeneity) đáng kể giữa các nghiên 
cứu, tức sẻ= 0. 


Chúng ta có thể dùng hàm £orest trong chương trình metafor để vẽ 
biểu đồ lá cây: 


forest (re.model, slab = study, atransf=exp, 
xlab=“Relative Risk”) 
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Chapuy (1992) 0:74 [056,097] 
Dawson - Hughes (1997) 0436 [001,878] 
Chapuy (2002) 0/64 [037, 1.10] 
Harwood (2004) 0449 003, 7.67] 
.Avenell (2004) 1.00 [0.07, 15.36] 
Grant(2005) 1.14076, 1.73] 
Porthouse (2005) 071 [031, 1.64] 
Jackson (2006) 0.88 [0.72, 1.07] 
Salovaara (2010) 2/03 [037, 11.06] 
RE Model * 0.84 [073,097] 

F—t tủa 

0 002 014 1 739 546 

Relative Risk 


Biểu đồ trên cho thấy tỉ số nguy cơ của 9 nghiên cứu là 0.84 (khoảng tin cậy 
95% dao động từ 0.73 đến 0.97). Nói cách khác, bổ sung CaD có hiệu quả giảm. 
nguy cơ gãy cổ xương đùi 16%, và hiệu quả này có ý nghĩa thống kê (vì khoảng 
tin cậy 95% không bao trùm 1). 

Biểu đồ phễu (funnel plot) không cho thấy có bằng chứng về hiệu ứng công 
bố (publication bias): 


£unne1 (re.model) 


Standard! 
1433 0815 0407 0 


183 
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Câu hỏi 15.2 Phân tích tổng hợp biến nhị phân bằng mô hình “ñxed 
effects” Tiếp tục nghiên cứu trong Câu hỏi 15.1, hãy phân tích bằng mô hình 
ảnh hưởng cố định (fñxed effects). 











Đáp: Chúng ta chỉ cần thêm method = “FE” trong hàm rma: 


# s = escalc(measure = *RR”, ai = treat.events, bị 
= treat,n-treat.events, cí = control.events, đi = 
control.n-control.events, data = cad, append = T) 


fe.model = rma(yi, vi, method=”FE”, data=es) 
summary (e .mode1) 


forest (fe.model, slab = study, atransf=exp, 
xlab=”Relative Risk”) 














Chapuy (1992) - 0.74 [0.56, 0.97] 
Dawson - Hughes (1997) TS 0.36 [0.01, 8.78] 
Chapuy (2002) _— 0.64 [0.37, 1.10] 
Harwood (2004) ———— 0.49 [0.03, 7.67] 
Avenell (2004) m————— 1.00 [0.07, 15.36] 
Grant(2005) ~ 1.14 [0.76, 1.73] 
Porthouse (2005) — 0.71 [031, 1.64] 
Jackson (2006) " 0.88 [0.72, 1.07] 
Salovaara (2010) 2.03 [0.37, 11.06] 
FE Model 0.84 [0.73,0.97] 

n6 vn Set nối 

0 002 014 1 739 546 

Relative Risk 


Mô hình fñxed-effects cho ra kết quả tương đương với mô hình random- 


effects. 
JE= 
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Câu hỏi 15.3 Phân tích tổng hợp bằng phương pháp Bayes. Tiếp tục 
nghiên cứu trong Câu hỏi 15.1, hãy phân tích bằng mô hình Bayes. 











Đáp: Phương pháp phân tích tổng hợp theo mô hình Bayes đòi hỏi chúng 
ta phải cho biết phân bố tiển định (prior đistribution) cho tỉ số nguy cơ. Thông 
thường, chúng ta có thể cho 3 phân bố để phản ảnh 3 giả định khác nhau: 
«© Giả định 1: chúng ta không biết gì về RR và nghĩ rằng không có ảnh. 
hưởng của bổ sung CaD đến gãy xương. Để phản ảnh quan điểm này, tỉ 
số nguy cơ trung bình là 1 (tức logRR = 0) với phương sai 10,000. 

© Giả định 2: chúng ta nghĩ rằng RR có thể dao động trong khoảng 0.8 đến 
1.2 (tức là CaD có thể giảm gây xương khoảng 20% nhưng cũng có thể 
tăng gãy xương 20%) nhưng tính trung bình là RR = 1. Với quan điểm này, 
chúng ta sẽ cho logRR = 0, nhưng phương sai là (log(1.2/0.8)/3.92)^2. 

© Giả định 3: chúng ta tin rằng CaD có thể giảm nguy cơ gãy xương và 

dùng kết quả nghiên cứu trước đây, như của Chapuy để làm thông tin 
tiển định. Nghiên cứu của Chapuy cho thấy RR là 0.74 và khoảng tin cậy 
95% của RR dao động từ 0.56 đến 0.97. Do đó, chúng ta sẽ cho logRR = 
log(0.74), nhưng phương sai là (Iog(0.97/0.56)/3.92)^2. 


Chúng ta có thể triển khai các suy nghĩ trên bằng cách dùng hàm bayesmeta 
trong chương trình bayesmeta như sau: 

Trước hết, tính effect size cho mỗi nghiên cứu: 

es = escalc(measure = "RR”, ai = treat.events, bỉ 


= treat.n-treat.events, cỉ = control.events, di = 
control.n-control.events, data = cad, append = T) 


1ibrary (bayesneta) 
tauprior = function(t) ({(dunif(t, 0, 100)} 


ma0 = bayesmeta(es, label=es$Authors, mu.prior.mean=0, 
mu.prior.sd=100, tau.prior=tauprior, data=es) 


mai = bayesmeta(es, label=es$Authors, mu.prior.mean=0, 
mu.prior.sd=0.1034, tau.prior=tauprior, data=es) 


ma2 = bayesmeta(es, label=es$Authors, mu.prior.mean=- 
0.301, mu.prior.sd=0.1401, tau.prior=tauprior, data=es) 


summary (ma0); summary (mal); summary (ma2 
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Kết quả phân tích cho giả định 1 như sau: 
mu prior (proper): 
normal (mean=0, sd=100) 


marginal posterior summary: 


tau mu theta 
mode 0.0000000 -0.1737121 -0.1726235 
median 0.1563300 -0.1748409 -0.1742291 
mean 0.2027870 -0.1756247 -0.1756247 
sd 0.1842679. 0.1429752 0.3084215 


95% 1ower 0.0000000 -0.4662854 -0.8159244 
95% upper 0.5487329  0.1117171 0.4601342 


Bayes factors: 
tau=0 mu=0 
338.3498 230.4108 


'Kết quả trên cho thấy logRR trung bình là -0.175 với khoảng tin cậy 95% dao. 
động từ -0.466 đến 0.111. Nói cách khác, RR = exp(-0.175) = 0.84, với khoảng tin 
cậy 95% là exp(-0.466) = 0.63 đến exp(0.111) = 1.12. 


Kết quả phân tích cho giả định 2 như sau: 


mu prior (proper): 
norma1 (mean=0, sd=0.1034) 


ML and MAP estimates: 


tau mu 
ML joint 6.479379e-06 ~0.1714407 
ML marginal 3.227092e-02 NA 


MAP joint 7.847706e-05 -0.1143466 
MAP marginal 3.226022e-02 -0.0905462 
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marginal posterior sunmary: 


tau mu theta 
mode 0.03226022 -0.09054620 -0.10858319 
median 0.15757021 -0.08256363 -0.09426387 
mean 0.19729079 -0.07848396 -0.07848396 
sa 00.16891500 0.08165753 0.27207943 


95% lower 0.00000000 -=0.23473139 -0.61891765 
95% upper 0.51555401 0.08673841 0.51169281 


Bayes factors: 
tau=0 mu=0 
328.5044050 0.7084906 


Kết quả trên cho thấy RR trung bình là exp(-0.078) = 0.92, với khoảng tin 
cậy 95% đao động từ exp(-0.234) = 0.79 đến exp(0.087) = 1.09. 


Kết quả phân tích cho giả định 3 (tức giả định “lạc quan”) như sau; 
mu prior (proper): 
norma1 (mean=-0.301, sd=0.1401) 


ML and MAP estimates: 


tau mu 
ML joint 5.268069e-05 ~0.1714667 
ML marginal  0.000000e+00 NA 


MAP joint 2.830952e-05 ~0.1991640 
MAP marginal 0.000000e+00 -0.2145761 


marginal posterior sunary: 


tau mu theta 
mode 0.0000000 -0.21457609 ~0.2039400 
median 0.1439686 -0.22149059 -0.2141219 
mean 0.1828868 -0.22557618 -0.2255762 
sả 0.1601060 0.09148244 0.2596114 


95% lower 0.0000000 ~0.41176459 -0.7824760 
95S% upper 0.4846433 -0.04862111 0.2938408 
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Bayes factors: 
tau=0 mu=0 
364.9611386  0.5495869 


relative heterogeneity I^2 (posterior median): 0.2419187 


Với giả định lạc quan, RR trung bình là exp(-0.225) = 0.80, với khoảng tin 
cậy 95% dao động từ exp(-0.412) = 0.66 đến exp(-0.049) = 0.95. 





Qua 3 phân tích trên, chúng ta thấy kết quả phân tích Bayes rất phụ thuộc 
vào thông tin tiển định. Với giả định lạc quan, chúng ta có thể nói rằng bổ sung 
CaD giảm nguy cơ gãy xương, nhưng nếu bắt đầu với giả định “bi quan” thì dữ 
liệu quan sát chưa đủ thuyết phục để chúng ta nói về ảnh hưởng của bổ sung 
CaD đến gãy xương. 





Câu hỏi 15.4 Phân tích tổng hợp biến liên tục. Bảng số liệu dưới đây 
trình bày kết quả nghiên cứu so sánh thời gian nằm viện của các bệnh nhân 
giữa 2 nhóm bệnh viện chuyên khoa và bệnh viện đa khoa. Hãy thực hiện 
một phân tích tổng hợp để trả lời câu hỏi bệnh nhân các bệnh viện đa khoa 
thường có thời gian nằm viện ngắn hơn các bệnh viện đa khoa hay không? 















































Nghiên cứu Bệnh viện chuyên khoa. Bệnh viện đa khoa 
0) N, LOS,, SD, N 1OS, sD 
1 155 55 47 156 75 64 
2 31 27 7 32 29 4 
3 75 64 17 71 119 29 
4 18 66 20 18 137 48 
5 8 14 8 13 18 11 
6 57 19 7 52 18 4 
7 34 52 45 33 41 34 
8 110 21 16 183 3 27 
9 60 30 27 s2 23 20 


























Chú thích: Trong bảng này, ¿ là chỉ số chỉ mỗi nghiên cứu, ¿ = 1, 2,.. 
N,uvàN, là số bệnh nhân nghiên cứu cho từng nhóm bệnh viện; LOS, và LOS, 
(length of stay): thời gian trung bình nằm viện (tính bằng ngày); SD, và §D; độ 
lệch chuẩn (standard deviation) của thời gian nằm viện. 
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Đáp: Đối với biến kết cục là biến liên tục như trong trường hợp thời gian 
nằm viện, chỉ số ảnh hưởng (effect size) chính là hiệu số giữa 2 số trung bình 
(cho nhóm bệnh viện chuyên khoa và bệnh viện đa khoa), nhưng hiệu số này 
cũng đi kèm theo một phương sai được tính trên cơ sở của hai phương sai. Nói 
cách khác, gọi LOS, và LOS, là hai số trung bình, và SD, và SD, là hai độ lệch 
chuẩn, chỉ số ảnh hưởng ES là: E§ = LOS, - LOS,, và phương sai của ES được tính 
như trong phương pháp kiểm định t. Mục tiêu của phân tích tổng hợp là tính ES 
cho tất cả nghiên cứu sau khi đã xem xét đến trọng số (tức phương sai) của mỗi 
nghiên cứu. 


Trước hết chúng ta nhập đữ liệu vào R: 

n1 = c(155,31,75,18,8,57, 34,110, 60) 
1os1 = c(55,27,64,66,14,19,52,21, 30) 
sdl = c(47,7,17,20,8,7,45,16,27) 

n2 = c(156,32,71,18,13,52, 33,183, 52) 
1os2 = c(75,29,119,137,18,18,41,31,23) 
sd2 = c(64,4,29,48,11,4,34,27,20) 


los = data. £rame (n1, los1,sd1,n2,1os2, s42) 


Dùng metafor để tính ES cho mỗi nghiên cứu: 


1ibrary (metafor) 


es = escalc(measure=»MD», nli=nl, mli=losl, sdli=sdl, 
n2i=n2, m2i=los2, sd2i=sd2, data=los, append=T 


Kết quả là dữ liệu los sẽ có thêm 2 biến *yi” (tức ES) và “vi” (phương sai của 
ES) như sau: 


>es 
n1 losl sdl n2 los2 sd2 vì vị 
1 155 55 47 156 75 64 -20.0000 40.5080 
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31 27 7ï 2 29 4 -2.0000 2.0806 
75 64 17 71 119 29 -55.0000 15.6984 
18 66 20 18 137 48 -71.0000 150.2222 

8 14 8 13 18 11 -4.0000 17.3077 
L}Yj 19 7 52 18 4 1.0000 1.1673 
34 52 45 33 41 34 11.0000 94.5891 
110 21 16 183 31 27 -10.0000 6.3109 
60 30 27 52 23 20 7.0000 19.8423 


*Ø 0 <1 Ơ ƠI 0 hộ 


Sau đó, tiến hành ước tính ES cho tất cả nghiên cứu qua hàm rma : 


res = rma(yi, vi, data=es 
> summary(res) 
Random-Effects Model (k = 9; tau^2 estimator: REML 


logLik deviance AIC BIC AICc 
~37.9082 75.8164 79.8164 79.9753 82.2164 


tau^2 (estimated amount of total heterogeneity) : 
684.6462 (SE = 359.7542) 


tau (square root o£ estimated tau^2 value) : 26.1657 


1^2 (total heterogeneity / total variability):  98.97% 


H^2 (total variability / sampling variability): 97.21 


Test for Heterogeneity: 
9(df = 8) = 238.9158, p-val < .0001 


Model Results: 


estimate se zval pval ci.lb ci.ub 


~15.1060 8.9466 -1.6885 0.0913 -32.6409 2.4289 


Signif. codes: 0 ***** 0.001 **** 0.01 *** 0.05 Y.° 0.1 


t1 
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Forest Plot Funnel Plot 


Radial Plot Standardized Residuals 








vz “s3 


Một số phương pháp 
phân tích dịch tễ học 





số học và thống kê học, nên sử dụng khá nhiều phương pháp phân tích 

thống kê. Tuy nhiên, những phương pháp này mang tính đặc thù cho 
chuyên ngành dịch tế học. Trong chương này, chúng ta sẽ làm quen với một số 
phương pháp cơ bản liên quan đến các vấn để chẩn đoán và tiên lượng. Ngoài ra, 
phương pháp ước tính tỉ lệ qui phân (attributable fraction) sử dụng cho một hay 
nhiều yếu tố nguy cơ. 


D ịch tế học (epidemiology) là một bộ môn y học dựa trên ý tưởng dân 





Câu hỏi 16.1 Phân phối chuẩn (Normal distribution). Thời gian mang 
thai trung bình ở các phụ nữ khoẻ mạnh là khoảng 280 ngày với độ lệch 
chuẩn là 10 ngày (G van Belle et al, Biostatistics: a methodology for the health. 
sciences, Wiley 2004, trang 134). Tính tỉ lệ của số phụ nữ khoẻ mạnh có thời 
gian thai nghén "quá hạn” 1 tuần. 











Đáp: Chúng ta giả định rằng phân phối của thời gian thai nghén tuân 
theo luật phân phối chuẩn với một phương sai bất biến. Để có thể tính được tỉ 
lệ theo yêu cẩu trên, trước tiên chúng ta cần phải chuyển đổi số liệu ban đầu 
sang đạng điểm số - z (z score) theo công thức: z=(x-x)/s, với x là giá trị 
mốc (cutoff value), x là trung bình mẫu, và s là độ lệch chuẩn. Trong vấn để này, 
điểm số - z của sự kiện mang thai đến 287 ngày (tức là "quá hạn” một tuần) là 





'lpe/fielun heploerg 


# = (287-280)/10 = 0.7. Nói cách khác, tỉ lệ của phụ nữ khoẻ mạnh có thời gian 
thai nghén quá hạn 1 tuần là 1—P(z < 0.7) = 1 — 0.758 = 0.242 hay 24.2%. Dùng R: 
1-pnorm(287, mean=280, sd=10) 
[1] 0.2419636522 





Câu hỏi 16.2 Điểm số Nguy cơ (Risk score). Trong một phương pháp 
dùng để chẩn đoán sớm ung thư phổi, mỗi một dấu hiệu lâm sàng được ấn 
định là một điểm số nguy cơ; tổng các điểm số nguy cơ đó là một chỉ số lâm. 
sàng cho bệnh nhân. Các số liệu thu thập cho thấy rằng đối với những người 
mắc ung thư phổi thì có chỉ số lâm sàng trung bình là 0.80 và độ lệch chuẩn 
là 0.10. Chỉ số lâm sàng trung bình và độ lệch chuẩn của những bệnh nhân 
không mắc ung thư là 0.42 và 0.12. Quy định điểm mốc là 0.6 để chẩn đoán 
sớm (bệnh nhân với chỉ số lâm sàng > 0.6 được xem là ung thư phổi và bệnh 
nhân có chỉ số lâm sàng < 0.6 được coi là không bị ung thư phổi) và giả định 
rằng các chỉ số này tuân theo luật phân phối chuẩn. Hãy tính tỉ lệ đương tính 
giả và âm tính giả, từ đó suy ra độ nhạy và độ đặc hiệu của phương thức chẩn 
đoán sớm dùng chỉ số lâm sàng trên đây. 











Đáp: Để tính được tỉ lệ đương tính giả và âm tính giả, ta sẽ dùng điểm số-z vì 
nó chuẩn hoá chỉ số lâm sàng. Số liệu đã cho ở trên chúng ta có thể chuyển sang, 
đạng điểm số - z như theo bảng dưới đây: 











_. | Độ lệch " 
Trung bình (X)_ | chuẩn (s) Z=(06-#)/s |P 

Ung thư phổi 0.80 0.10 -20 0.023 

Không bị ung thư phổi 042 012 +15 0.933 























P có nghĩa là xác suất để chỉ số z nhỏ hơn hoặc bằng giá trị quan sát (nghĩa 
là -2.0 hoặc +1.5). Như thấy ở trên, nếu dùng giá trị mốc là 0.6 để chẩn đoán ung 
thư phổi thì hẳn có 2.3% các trường hợp ung thư phổi được chẩn đoán là không 
bị ung thư phổi (nghĩa là âm tính giả). Mặc khác, có khoảng 1 - 0.922 = 0.067 hay: 
6.7% các trường hợp không mắc ung thư phổi lại bị chẩn đoán là ung thư phổi 
(hay đương tính giả). 

Độ nhạy là tỉ lệ (hay xác suất) của các trường hợp mắc bệnh ứng với một thử 
nghiệm (hay một chẩn đoán) dương tính. Nói theo ngôn ngữ xác suất thì: 

độ nhạy = P(thử nghiệm(+) | bệnh nhân mắc bệnh) = 1 - tỉ lệ đương tính giả 
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Vì thế, đôi khi độ nhạy còn được gọi là fỉ lệ dương tính thật (nghĩa là chất 
lượng chẩn đoán của thử nghiệm). Độ nhạy cao có nghĩa là khi xét nghiệm âm 
tính ta có thể “yên tâm” loại trừ bệnh. 

Độ đặc hiệu là tỉ lệ của những người không mắc bệnh ứng với một thử 
nghiệm có kết quả âm tính. Nói theo ngôn ngữ xác suất thì: 

Độ đặc hiệu = P(thử nghiệm(-) | bệnh nhân không mắc bệnh) = 1 - tỉ lệ âm 
tính giả 

Độ đặc hiệu còn được gọi là tỉ lệ âm tính thật (nghĩa là khả năng xác định 
được các đối tượng không bị bệnh). Vì thế, một độ đặc hiệu cao cũng có nghĩa 
rằng khi một xét nghiệm dương tính ta có thể kết luận được bệnh. 

Trong vấn để này, độ nhạy và độ đặc hiệu là 97.7% và 93.3%. 





Câu hỏi 16.3 Độ nhạy và độ đặc hiệu của một xét nghiệm chẩn đoán. 
Trong một mẫu gồm 1000 phụ nữ được chọn một cách ngẫu nhiên, các nhà 
nghiên cứu chẩn đoán được 170 người (bằng xét nghiệm máu) bị bệnh tiểu 
đường, và 830 người là không có bệnh. Các nhà nghiên cứu thử dùng một 
phương pháp chẩn đoán mới, không xâm nhập, bằng cách xét nghiệm nước 
tiểu. Và 1000 phụ nữ này được cho làm thêm một xét nghiệm nước tiểu nữa. 
Kết quả xét nghiệm nước tiểu xác định trong số 170 người mắc bệnh đó 
thì có 10 người có xét nghiệm nước tiểu dương tính; và trong số 830 người 
không mắc bệnh ban đầu, có 800 người có xét nghiệm nước tiểu âm tính. 
Hãy cho nhận xét về độ nhạy và độ đặc hiệu của xét nghiệm nước tiểu dùng 
để chẩn đoán bệnh tiểu đường. 











Đáp. Kết quả số liệu thu thập trên đây có thể tóm tắt lại trong một bảng 2x2. 
Thông thường, kết quả chẩn đoán của phương pháp chuẩn (trường hợp này là 
xét nghiệm máu) được trình bày bằng 2 cột và chẩn đoán theo phương pháp mới 
được trình bày bằng 2 hàng. Và trong vấn để của chúng ta, kết quả được biểu 
điển trong bảng sau: 


























Kết quả xét nghiệm Xét nghiệm máu (+) Xét nghiệm máu (-) 
Xét nghiệm nước tiểu (+) 10 30 
Xét nghiệm nước tiểu (-) 160 800 
Tổng cộng 170 830 





Ghi chú: Các số in đậm được trích từ để bài, còn lại là được suy ra theo 
thông tin được cung cấp. 
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Độ chính xác của một xét nghiệm chẩn đoán thường được đánh giá bằng 
hai chỉ số đo lường: độ nhạy và độ đặc hiệu. Theo định nghĩa (xem vấn để 2), mẫu 
số của độ nhạy là số người bị mắc bệnh (nghĩa là bị tiểu đường), và mẫu số của 
độ đặc hiệu là số người không bị tiểu đường. 





Theo số liệu đã cho, độ nhạy được ước lượng bằng 10/170 = 0.059 và độ đặc 
hiệu bằng 800/830 = 0.964. Dựa trên kết quả này, chúng ta phải kết luận rằng 
hiệu quả của việc sử dụng xét nghiệm nước tiểu để chẩn đoán là kém, vì độ nhạy 
quá thấp (5.9%), mặc dù độ đặc hiệu cao. Nếu dùng loại xét nghiệm này, thì tỉ lệ 
âm tính giả được ước tính khoảng 94% (hoặc 94% số bệnh nhân bị tiểu đường 
thì khi làm xét nghiệm nước tiểu lại có kết quả âm tính). 

Độ nhạy và độ đặc hiệu là hai chỉ số thông dụng nhất dùng để đánh giá các 
thử nghiệm trong nghiên cứu y khoa. Tuy nhiên, nhược điểm của hai chỉ số này 
là nó không trả lời được điểu chúng ta cẩn muốn biết. Trong vấn để đặt ra này 
thì câu trả lời cho chúng ta là với một bệnh nhân bị (hoặc không bị) tiểu đường, 
rồi thì xác suất có một xét nghiệm nước tiểu dương tính (hoặc âm tính) là bao 
nhiêu. Và như thế về mặt lô-gíc cảm quan lâm sàng thì câu trả lời này là nghịch 
lý, vì chính bệnh nhân với kiến thức về bệnh tiểu đường của mình cũng có thể 
loại trừ mò được một thử nghiệm chẩn đoán với mục đích để phát hiện một 
bệnh, mà bệnh nhân đã biết trước họ mắc bệnh đó rồi! 

Điều chúng ta cần muốn biết có lẽ là: Nếu trên một bệnh nhân có xét nghiệm 
nước tiểu là đương tính (hoặc âm tính) thì xác suất để một bệnh nhân đó mắc 
(hay không mắc) bệnh tiểu đường là bao nhiêu? Vấn đề này liên hệ đến một khái 
niệm gọi là giá trị dự đoán dương tính (tiếng Anh viết tắt là PPV), một bài toán 
dạng Bayesian. Ở đây, chúng ta không thể trả lời câu hỏi này được vì lẽ chúng ta 
không biết được £ỉ lệ lưu hành của bệnh tiểu đường trong quần thể. Vấn để để 
cập tới đây sẽ minh hoạ rõ hơn về việc sử dụng chỉ số PPV. 





Câu hỏi 16.4 Giá trị tiên lượng dương tính (PPV). Narain và đồng 
nghiệp (1971) tiến hành một nghiên cứu mà trong đó họ sử dụng một xét 
nghiệm làm phiến AFB để chẩn đoán lao phổi. Họ tiến hành làm xét nghiệm 
phiến AFB và nuôi cấy AFB trên 6453 người ở quận Bangalore, miền Nam 
Ấn Độ. Kết quả thu được có 142 phiến AFB dương tính và 180 mẫu nuôi cấy 
dương tính. Có 98 trường hợp kết quả phiến âm tính mà cấy thì lại dương, 
tính. Hãy cho nhận xét về giá trị chẩn đoán của phương pháp làm phiến AFB, 
với giả định cho rằng kết quả nuôi cấy là “tiêu chuẩn vàng” để chẩn đoán 
bệnh lao phổi. 
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Đáp: Chúng ta có thể sắp xếp số liệu thu được dưới dạng bảng 2x2 như sau: 

















Kết quả xét nghiệm Nuôi cấy (+) Nuôi cấy (2) Tổng cộng 
Phiến (+) 42 60 142 
Phiến () 98 6213 6311 
Tổng cộng 180 6273 6453 

















Ghi chú: Các con số in đậm được trích từ để bài, còn lại là được suy ra theo 
thông tin được cung cấp. 

Lấy kết quả nuôi cấy làm chuẩn, tẩn suất lưu hành của bệnh lao phối trong 
cộng đồng có thể ước lượng bằng 180/6453 = 0.028 tức là 2.8%. Độ nhạy và độ 
đặc hiệu của thử nghiệm phiến AFB là 82/180 = 0.46 và 6213/6237 = 0.99. 

Giá trị dự đoán dương tính (PPV) được định nghĩa là xác suất của bệnh 
nhân mắc bệnh ứng với một xét nghiệm có kết quả dương tính. Về mặt thống kê, 
PPV có thể được coi như là một xác suất có điều kiện: PPV = P (người mắc bệnh 
| xét nghiệm (+)), hoặc trong mối tương quan với tỉ lệ dương tính thật (TP), và 
tỉ lệ dương tính giả (FP) thì PPV được tính là PPV = TP/(TP + EP). Trong cách 
tính này đôi khi đễ nhầm lẫn với độ nhạy, nhưng nên ghi nhớ là mẫu số của PPV 
là số bệnh nhân có xét nghiệm dương tính (chứ không phải là số cá thể mắc bệnh 
như trong trường hợp của độ nhạy). Điều quan trọng hơn là PPVcó thể được xác 
định trong ngữ cảnh tần suất lưu hành của bệnh: 


Px®8ens 


PPVS———————— 
(Px§ems)+(I— P)(I—Spec) 


Trong đó, P là tần suất lưu hành; Sens là độ nhạy; Spec là độ đặc hiệu. 


Trong vấn để này, PPV=(0.028 x 0.46)/[(0.46 x 0.028) + (1 - 0.028) x 
(1 - 0.99)] = 0.57. Nói cách khác, nếu một bệnh nhân có xét nghiệm phiến AFB. 
dương tính thì xác suất để bệnh nhân này mắc lao phổi là 0.57 hay 57%. 

Trong thực tế, khi tính toán PPV với cách dùng công thức như trên hơi phức 
tạp. Cách hay hơn để diễn đạt thông tin này là sử dụng hoạ đổ như dưới đây: 









































Mẫu N=6453 
TT 7E —> 
Lao phổi Không bị Lao 
N=180 N=6273 
TT. n=~ ~TTT => 
œ®) Q Œ) b) 
N=82 N=98 N=60 N=6213 
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Theo cách trình bày này, chúng ta nhận thấy rằng trong 180 bệnh nhân lao. 
phổi thì có 82 người có kết quả xét nghiệm phiến dương tính, và 98 người có xét 
nghiệm này âm tính. Mặt khác, trong số 6273 người không mắc lao, thì 60 người 
có xét nghiệm phiến dương tính, số 6213 người còn lại là âm tính. Vì vậy, tính 
toàn bộ chúng ta có 82 + 60 = 142 người có xét nghiệm phiến dương tính, nhưng 
trong số đó chỉ có 82 người là thực sự mắc lao phổi mà thôi. Vì thế mà, PPV = 
82/142 = 0.58 


Tương tự như vậy, chúng ta có thể ước lượng được giá trị dự đoán âm tính 
(NPV) một cách dễ dàng là NPV = 6213/6273 = 0.99. 





Câu hỏi 16.5 Chẩn đoán dựa trên nhiều tiêu chuẩn (chẩn đoán viêm 
họng do liên cẩu). Các nghiên cứu trước đây đã cho thấy khoảng 10% số 
người trẻ (tuổi từ 11 đến 30 tuổi) bị đau họng do viêm họng liên cầu trùng 
dựa trên tiêu chuẩn xét nghiệm nuôi cấy dịch họng dương tính. Crawford và 
đồng nghiệp (1979) tiến hành nghiên cứu trên một số các dấu hiệu lâm sàng, 
của viêm họng liên cầu cùng với một số loại xét nghiệm mới, nhuộm Gram 
và men tiết từ họng. Bảng sau trình bày chỉ số độ nhạy và độ đặc hiệu của xét 
nghiệm nhuộm Gram, một số các triệu chứng và tiển sử phơi nhiễm với các 
thành viên trong gia đình bị viêm họng do liên cầu. 














Sốt>38°%C - | Nổihachcố | Men tiết Tiền sử Nhuộm 

ởhọng phơi nhiễm _ | Gram (+) 
Độ nhạy 0.33 0.73 045 0.18 0.73 
Độ đặc hiệu _ | 089 055 078 092 096 


























Hãy nhận xét về tỉ suất khả năng (likehood ratio) dương và âm tính của 
mỗi tiêu chuẩn chẩn đoán. Nếu một người 20 tuổi có đau họng và có sốt 39°C, 
thì khả năng bệnh nhân này bị mắc bệnh viêm họng do liên cầu là bao nhiêu? 

Đáp: Tỉ số khả dĩ (tiếng Anh viết tắt là LR) là một chỉ số khác để định tính 
một thử nghiệm chẩn đoán. LR được định nghĩa là tỉ suất của xác suất của một 
kết quả thử nghiệm để xác định một cá thể bị bệnh chia cho xác suất của cùng 
một loại kết quả thử nghiệm đối với một cá thể không bị bệnh. Và vì thế tỉ suất 
khả đi đối với một kết quả thử nghiệm dương tính (tiếng Anh viết tắt là LR+) 
là một chỉ số cho thấy mức độ chênh lệch sẽ tăng lên bao nhiêu khi trường hơp 
có bệnh đi kèm với một xét nghiệm cho kết quả đương tính. Tương tự, tỉ suất 
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khả dĩ đối với một kết quả thử nghiệm âm tính (tiếng Anh viết tắt là LR-) là 
một chỉ số cho thấy mức độ chênh lệch sẽ giảm xuống bao nhiêu trong trường 
hợp có bệnh nhưng xét nghiệm lại âm tính. Về phương điện toán học, 


LR+ = độ nhạy/(1 - độ đặc hiệu) và LR- = (1 ~ độ nhạy)/độ đặc hiệu 





Hay nói cách khác LR+ là tỉ suất giữa tỉ lệ đương tính thật/tỉ lệ âm tính giả, 
và LR- là tỉ suất giữa tỉ lệ dương tính giả/tỉ lệ âm tính thật. Và vì thế, từ số liệu đã 
cho PPV, LR+ và LR- được tính ra như sau: 




















Chỉ số thống kê Sốt>38°C | Nổi hạch cổ Men tiết Tiền sử Nhuộm 
ởhọng | phơinhiễm | Gram(+) 
Độ nhạy 0.33 0.73 0.445 0.18 0.73 
Độ đặc hiệu 0.89 0.55 0.78 092 0.96 
LR+ 3.00 1.62 205 225 18.25 
LR- 0.75 049 071 0.89 028 
PPV 0.25 0.15 019 020 067 


























Dựa trên các chỉ số xác định chẩn đoán (LR+, LR-, PPV) chúng ta phải kết 
luận rằng phương pháp nhuộm Gram là phương pháp chính xác nhất để chẩn 
đoán viêm họng liên cẩu trong số các tiêu chuẩn lâm sàng trên đây vì nó có giá 
trị LR+ và PPV lớn nhất. Tiêu chuẩn thứ hai nên chọn là dấu hiệu sốt, có LR+ là 
3, thế nhưng lại có độ nhạy tương đối thấp. 

Xác suất để cho một người tuổi 20 có đau họng và sốt 39 độ bị mắc viêm 
họng do liên cầu trùng là 25% (PPV). 





Câu hỏi 16.6 Đường cong Receiver Operating Characteristics (ROC 
curve). Trong một nghiên cứu trên 225 phụ nữ tuổi từ 20 đến 80 ở Thái Lan, 
các nhà nghiên cứu tiến hành đo tỉ lệ mỡ của cơ thể (bằng công nghệ DXA) 
và ghi nhận Chỉ số khối cơ thể (body mass index, BMI) trên các đối tượng 
này. Tỉ lệ mỡ của cơ thể được coi là “tiêu chuẩn vàng” để đánh giá béo phì. Về 
mặt lâm sàng, với một người có tỉ lệ mỡ cao hơn 30% thì được coi là béo phì. 
“Tuy nhiên, đo tỉ lệ mỡ của cơ thể là một xét nghiệm đắt tiền, do vậy các nhà 
nghiên cứu mới thử dò xem liệu có sử dụng BMI để đánh giá tình trạng béo. 
phì trong trường hợp không đo được tỉ lệ mỡ của cơ thể được hay không. Số 
liệu đưới đây biểu diễn số lượng người bị béo phì và bình thường (không béo 
phì) tương ứng với mỗi mức BMI. Vẽ đường cong ROC và nhận xét kết quả. 
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BMI (kg/m') Bình thường Béo phì 


<2 62 1 
2 2 2 
23 23 8 
2 17 12 
25 8 14 
26 4 10 
27 2 20 
28 0 12 
29 1 7 

>29 2 26 


Đáp: Đường cong ROC nguyên thuỷ được tính toán trong công nghệ 
radar dùng để phân biệt mức độ thay đổi của tín hiệu viên trong khả năng bẩm 
sinh nhận dạng tín hiệu. Hiện nay đường cong ROC thường được dùng để 
đánh giá chất lượng cường độ phân biệt của một thử nghiệm sử dụng số liệu 
có biểu thị độ nhạy và độ đặc hiệu. Thiết lập đường cong ROC dựa trên số liệu 
cho phép chúng ta có thể đánh giá được khả năng phân biệt giữa các kết quả 
âm tính và dương tính và để xác định được điểm mốc sao cho có lợi nhất khi 
cân đối giữa độ nhạy và độ đặc hiệu trong quá trình đánh giá một thử nghiệm. 
Thông thường thì đường cong ROC là tập hợp những giao điểm có hoành độ 
là tỉ lệ đương tính giả và tung độ là độ nhạy (tì lệ dương tính thật) của từng giá 
trị thử nghiệm. 

Đặt các trị số của mỗi mức BMI của các phụ nữ bình thường và béo phì lần 
lượt là m, và ø„ (với ¡ = 1, 2, 3, ...10), và thế thì tỉ lệ dương tính thật (TPR,) và tỉ lệ 
đương tính giả (FPR,) có thể ước lượng cho mỗi mức BMI theo các công thức sau: 


10 





Kết quả thu được được trình bày lại theo bảng dưới đây: 
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Phân mức BMI Bình Béo phì TPR, FPR, Diện tích, 

6) (kg/m) | thường 
1 <2 62 1 1.0000. 1.0000 04316 
3 2 24 2 0.9911 0.5664 0.1648 
3 23 23 8 0.9732 0.3986 0.1508 
4 24 17 12 0.9018 0.2378 0.1008 
5 25 8 14 0.7946 0.1189 0.0410 
6 26 4 10 0.6696 0.0629 0/0175 
TÀ 27 2 20 0.5804 0.0350 0.0069 
8 28 0 12 0.4018 0.0210 0.0000 
9 29 + Lá 0.2946 0.0210 0.0018 
10 >29 2 26 0.2321 0.0140 0.0000 
Total 143 112 0.9152 























Đường cong tập hợp các điểm được xác lập như sau: 
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Bước tiếp theo là cần phải ước lượng diện tích đưới đường cong ROC (tiếng 
Anh viết tắt là AUC). Diện tích này có thể tính xấp xỉ theo phương pháp hình 
thang. Diện tích dưới đường cong (A) có thể được tính bằng cách tính diện tích 
mỗi phân đoạn tương ứng với mỗi mức BMI: 


TPR, +TPR,\ 


Ai =(FPR, - FPR,..)< : 


Các giá trị tính được từ công thức này trình bày ở cột cuối cùng trong bảng 
kết quả trên. Để tính được A, đơn giản là tính tổng các diện tích dưới đường 
cong của mỗi phân đoạn đó, nghĩa là: 4UC = 3` 4rea, =0.9152. 


„ 


Phương sai của AUC tương đối phức tạp, nhưng có thể tính xấp xỉ theo công 
thức sau: 


-|at-2s(e „~1)x (“-+} (N,-1)x (š5-+ li 


Và sai số chuẩn của AUC, SE(AUC)= v* = s. Trong trường hợp này thì 
§E(AUC) = 0.0194 (Bạn đọc có thể tự tính lấy). 

Diện tích dưới đường cong (AUC) là một chỉ số đo độ chính xác. Nếu diện 
tích dưới đường cong < 0.5, thì cường độ phân biệt của phép thử nghiệm đó 
không tốt và kết quả nếu có thu được cũng chỉ là ngẫu nhiên. AUC bằng 1 thì 
đó là một thử nghiệm tuyệt hảo, khi đó đường cong ROC sẽ trở thành một góc 
vuông với đỉnh có toạ độ là (0, 1). Trong trường hợp của chúng ta, AUC = 0.915 
cho thấy BMI là một tiêu chuẩn có khả năng phân định béo phì rất tốt. 

Tuy nhiên, đường cong ROC lại không có can dự trực tiếp gì với hiệu quả 
của tần suất lưu hành hay giá trị các kết cục thử nghiệm khả di khi tiến hành thử 
nghiệm mà đó là hai nhân tố quan trọng trong thực tế sử dụng các thử nghiệm 
chẩn đoán. Một phương pháp đồ hoạ mới là phân tích đồ thị độ chính xác - giá 
trị - tấn suất lưu hành (prevalence - value - accuracy, PVA), các ảnh hưởng của 
tẩn suất lưu hành và cái giá phải trả của việc phân loại nhầm trong khi so sánh 
các thử nghiệm chẩn đoán. Tuy nhiên, phân tích này (PVA) nằm ngoài phạm vi 
của cuốn sách, độc giả cần tham khảo thêm ở các sách chuyên ngành. 
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Câu hỏi 16.7 Ước tính tỉ lệ hiện hành (prevalence). Một bản tin báo 
chí cho biết “Ở Việt Nam, hiện có hơn 20% dân số nhiễm viêm gan siêu 
vi B&C, tức khoảng 18 triệu người, trong đó viêm gan siêu vi B chiếm 1/6 
dân số” Dĩ nhiên, chúng ta không thể xét nghiệm 87 triệu người Việt Nam. 
để biết bao nhiêu người nhiễm viêm gan siêu vi B &C. Chúng ta chỉ xét 
nghiệm trên một quần thể được chọn hi vọng là ngẫu nhiên để ước tính 
mà thôi. Một bài báo công bố vào năm 2003 (Hipgrave DB, et al. Hepatitis 
B infection in rural Vietnam and the implications for a national program of 
infant immunization. Am. J. Trop. Med. Hyg., 69(3), 2003, pp. 288-294) ước 
tính tỉ lệ hiện hành nhiễm viêm gan siêu vi B (tôi sẽ viết tắt là HBV) ở hai 
huyện thuộc tỉnh Thanh Hoá vào năm 1998. Họ xét nghiệm 1579 đối tượng, 
(nam và nữ), và tỉ lệ nhiễm HBV như sau. Hãy dùng số liệu này để ước tính 
tỉ lệ hiện hành cho toàn quốc. 











Tỉ lệ nhiễm viêm gan siêu vi B ở hai huyện thuộc tỉnh Thanh Hoá (1998) 























Nhóm tuổi N Đang bị nhiễm _ | Đã và đang 
(%) bị nhiễm (%) 

Trẻ em (9 - 18 tháng tuổi) 536 125 196 

Trẻ em (4 ~ 6 tuổi) 228 184 364 

Thiếu niên (14 - 16 tuổi) 219 20.5 5543 

Người lớn (25 - 40 tuổi) 596 18.8 79.2 

Tổng số 1579 168 495 

















Đáp: Ước tính tỉ lệ hiện hành có khi rất đơn giản. Phương pháp đơn giản 
nhất là tiến hành một cuộc survey hay nghiên cứu một thời điểm (cross-sectional 
study), đối tượng được chọn ngẫu nhiên trong cộng đồng quan tâm. Sau đó làm 
xét nghiệm, và kết quả sẽ có một số người có kết quả đương tính và số còn lại 
có kết quả âm tính. Gọi số cỡ mẫu trong quần thể là N và số người có kết quả 
dương tính là A, tỉ lệ hiện hành (prevalence, kí hiệu £) được ước tính đơn giản 
qua công thức: 


t=A/N 
Độ lệch chuẩn có thể tính như sau: 
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Và khoảng tin cậy 95% là £ + 1.96s. 
Trong ví dụ trên, với N = 1579 và A = 265, chúng ta có thể ước tỉnh tỉ lệ hiện. 
hành là: 
t= 265 / 1579 = 0.168 
Độ lệch chuẩn: 
s= 0.009 
Và khoảng tin cậy 95% dao động từ 0.149 đến 0.186. 


Nhưng cách tính trên không thỏa đáng. Cách tính trên chỉ đúng khi nào. 
phương pháp xét nghiệm HBV hoàn hảo, tức chính xác 100%, không có sai sót. 
Nhưng trong thực tế, chúng ta biết rằng phương pháp xét nghiệm HBV không 
hoàn hảo. Theo y văn, độ nhạy (sensitivity) của phương pháp xét nghiệm PCR. 
là 99% và độ đặc hiệu (specificity) là 97%. Do đó, tỉ lệ dương tính giả là 3% (tức 
không bị HBV nhưng có kết quả dương tính), và âm tính giả là 1% (bị HBV 
nhưng có kết quả âm tính). 

Câu hỏi đặt ra là làm sao ước tính tỉ lệ hiện hành điều chỉnh cho độ nhạy và 
độ đặc hiệu? Một phương pháp phổ biến thường hay dùng trong dịch tế học là 
dựa vào công thức Bayes. Gọi p là ước số của tỉ lệ hiện hành 7 (chúng ta không 
biết 7), p có thể tính toán như sau: 

p= (t+ độ đặc hiệu - 1) / (độ nhạy + độ đặc hiệu - 1) 

Áp dụng cho số liệu trên chúng ta có: 

p= (0.168 + 0.97 - 1) / (0.99 + 0.97 - 1) = 0.143 


Chúng ta cũng có thể ước tính khoảng tin cậy 95% cho 7t bằng cách thay thể 
khoảng tin cậy 95% của / trong công thức trên: 


p= (0.149 + 0.97 - 1) / (0.99 + 0.97 - 1) = 0.124 
đến 
p = (0.186 + 0.97 ~ 1) / (0.99 + 0.97 ~ 1) = 0.163 
Như vậy, nếu độ nhạy là 99% và độ đặc hiệu là 97%, chúng ta có tỉ lệ hiện. 
hành là 14.3% (chứ không phải 16.8%) và khoảng tin cậy 95% là từ 12.4% đến 
16.3%. 
'Vấn để không dừng ở đó. Giả dụ như nếu chúng ta có số cỡ mẫu thấp hơn. 
(như N = 250) và chỉ có 6 kết quả dương tính, thì £ = 0.024, và p = -0.0062! Một 
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kết quả vô lí và phi thực tế. Điểu này cho chúng ta biết phương pháp ước tính 
đơn giản trên đây là thất bại. 

Phương tính trên chỉ “hiệu quả” khi tần số mắc bệnh khá cao và khi cỡ mẫu. 
tương đối lớn. Khi cỡ mẫu nhỏ và tần số mắc bệnh thấp, phương pháp đó thất 
bại. Lấn sau tôi sẽ chỉ ra một phương pháp ước tính chính xác hơn, nhưng cần 
đến Bayes. 

Quay trở lại vấn để: có bao nhiêu người Việt nhiễm HBV và HCV? Chúng 
ta không có nhiều số liệu cộng đồng về HCV, nhưng số liệu HBV như trình bày: 
trên cho thấy có lẽ tỉ lệ nhiễm HBV theo độ tuổi là: 

Tỉ lệ nhiễm HBV ở hai huyện thuộc tỉnh Thanh Hoá (1998) 




















Nhóm tuổi N_ | Đangbị Tiiệ Dân số Ước tính 
nhiễm sau khi ViệtNam | số người 
() | điểuchỉnh | 2010(triệu) | nhiễm HBV 
(%) (ngàn) 

Trẻ em (9 - 18 tháng tuổi) | 536 | 125 so 8.526 9976 
Trẻ em (4- 6 tuổi) 228 | 184 16.0 
Thiếu niên (14 - 16 tuổi) 219 |205 182 4.954 90146 
Người lớn (25 - 40 tuổi) 596 | 188 164 23.818 3906.2 
Tổng số 1579 | 168 144 37299 5805.4 


























Kết quả tính toán trên cho thấy với bằng chứng trong y văn, có thể nói số 
người bị nhiễm HBV là 5.8 triệu người. Nhưng hãy cho rằng tỉ lệ nhiễm toàn 
dân số là 14.4%, thì với dân số 87.8 triệu hiện nay, số người nhiễm HBV là 12.6 
triệu người. 

Còn HCV? Chúng ta biết rằng tỉ lệ nhiễm HCV thường thấp hơn HBV. 
'Theo y văn, tỉ lệ nhiễm HCV ở Việt Nam khoảng 1 đến 2%. Với dân số 87.8 triệu, 
số người nhiễm HCV có thể là tối đa là 1.7 triệu người. 

Như vậy tổng số nhiễm HBV và HCV là 12.6 + 1.7 = 14.3 triệu. Khó có thể 
là 18 triệu như tựa để bài báo tuyên bố. 
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Câu hỏi 16.8 Ước tính tỉ lệ hiện hành trong điều kiện bất định. Trong 
câu hỏi 16.7 chúng ta đã thấy việc ước tính tỉ lệ hiện hành gặp khó khăn khi 
phương pháp xét nghiệm không hoàn hảo và khi cỡ mẫu thấp hoặc tẩn số 
mắc bệnh thấp. Trong điều kiện số cỡ mẫu thấp hoặc tần số mắc bệnh thấp, 
chúng ta có thể sử dụng phương pháp Bayes để ước tính tỉ lệ hiện hành. Hãy 
mô hình tỉ lệ hiện hành bằng phương pháp Bayes. 











Đáp: Với phương pháp Bayes, chúng ta cần cung cấp thông tin tiền định 
(prior information) cho thông số chúng ta muốn ước tính. Thông số trong 
trường hợp này là tỉ lệ hiện hành , và sau đó sẽ dùng mô phỏng (simulation) để 
ước tính 7. Vì chúng ta không biết tỉ lệ hiện hành chính xác là bao nhiêu, nên 
trong trường hợp này có thể mô tả tình trạng bất định về kiến thức của chúng ta 
với Tt bằng luật phân bố Beta. Luật phân phối Beta có 2 thông số alpha và beta (sẽ 
viết tắt là a và b). Trong điểu kiện bất định, a = b = 1. Nói cách khác, 


Tt~ Beta (1, 1) 


Với độ nhạy sens và độ đặc hiệu spec, chúng ta có thể ước tính giá trị tiên 
lượng dương tính (positive predictive value - PPV): 


ZXsens 
ft xmH<zxI<z=) 
Trong số A đối tượng có kết quả dương tính, chúng ta kì vọng sẽ có 
X =AxPPV thật sự nhiễm HBV. Do đó, chúng ta sẽ sử dụng luật phân phối nhị 
phân để mô phỏng X. Tương tự, chúng ta mô phỏng Y = N - A kết quả âm tính 
nhưng mắc bệnh (âm tính giả). Tính chung, chúng ta có X + Y đối tượng (trong 
số N) nhiễm HBV. 








A ~ Binom(A, PPV) 
và 
B~ Binom(B, 1—PPV) 


Chúng ta sẽ sử dụng phương pháp Gibbs sampler để mô phỏng. Mã R sau 
đây sẽ mô phỏng theo mô hình trên: 
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# set.seed (1237) 
m = 50000 # iterations 
PI = numeric(m) # vector for results 


.5 # initial value 





; beta=l # Beta paramater 
sens=0.99; spec=0.97 # sens and spec 
N=1579; A=265; B=N-A # actual data 


for (i in 2:m) 

{ 

num.x = PI[i-1]*sens; 

den.x = num.x‡ (1-PI[i-1]) * (1-spec) 

X = rbinom(1, A, num.x/den.x) 

num,y = PI[i~1]*(1-sens) 

den.y = num.y+(1-PI[i-1])*spec 

Y = rbinom(1, B, num.y/den.y) 

PI[i] = rbeta(1, X + Y + alpha, n-X-Y+beta) 
} 

aft.brn = seq(m/2+1l, m) 

mean (PI[a£ft.brn]) 
quantile(PI[aft.brn], c(0.025, 0.975)) 
par (m£row=e (2,1) ) 

plot (aft.brn, PI[aft.brn], type=”1”) 
hist(PI[aft.brn], prob=T 

par (m£row=e (1,1)) 











Chú ý trong mã trên, chúng ta có N = 1579 và A = 265. Sau khi chạy chương 
trình, chúng ta có kết quả ước số cho tỉ lệ hiện hành 7 là 0.144, với khoảng tin 
cậy 95% dao động từ 12.5% đến 16.4%. Nếu thay thế N = 250 và A = 6, tỉ lệ hiện 
hành là 0.07% và khoảng tin cậy 95% là 0.002% đến 0.263% (chứ không còn là 
số âm như trước). 

Nói tóm lại, trong trường hợp bất định (thể hiện qua độ nhạy và độ đặc 
hiệu không phải là 100%) thì phương pháp mô phỏng theo mô hình Bayes có thể 
cung cấp một ước số đáng tin cậy hơn phương pháp cổ điển. 
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Câu hỏi 16.9 Ước tính tỉ lệ qui phân (attributable fraction). Nghiên 
cứu dưới đây có mục tiêu đánh giá ảnh hưởng của phơi nhiễm hoá chất đến. 
gãy xương ở 2203 nữ sau mãn kinh. Trong số này có 411 người không phơi 
nhiễm và 1792 người phơi nhiễm. Trong số 411 nữ phơi nhiễm, sau 10 năm 
theo dõi, có 18 người bị gãy cổ xương đùi. Hãy tính tỉ lệ qui phân, tức bao 
nhiêu phần trăm gãy xương là do phơi nhiễm hoá chất? 











Đáp: Kết quả của nghiên cứu có thể tóm tắt bằng bảng số liệu sau đây: 


Nhóm Gãy xương. Không gãy xương Tổng số 
Không phơi nhiễm 18 393 41 
Phơi nhiễm. 115 1677 1792 


Khái niệm population attributable ƒraction (PAF) thường dùng để đánh giá 
tẩm ảnh hưởng của một yếu tố nguy cơ. Một trong những phương pháp phổ biến 
là phương pháp để xướng bởi Levin [1]. Theo phương pháp Levin, PAF tuỳ thuộc 
vào hai yếu tố: 

« _ tỉ lệ hiện hành (prevalence, kí hiệu P) của yếu tố nguy cơ; và 

«_ mối liên hệ giữa yếu tố nguy cơ với nguy cơ mắc bệnh. Mối liên hệ này có. 

thể thể hiện bằng tỉ số nguy cơ (relative risk, RR). 


Công thức PAF theo Levin là: P4Ƒ = Tag - Trong số 2203 người, có 

1792 hay 81.3% bị phơi nhiễm. Nói cách khác, P = 1792 / 2203 = 0.813. 

Nhóm Gây xương. Không gãy xương Tổng số 

Không phơi nhiễm. 18 393 41 

Phơi nhiễm 15 1677 1792 

Xác suất gãy xương. 

Không phơi nhiễm. 0.044 0.956 1.00 

Phơi nhiễm 0.064 0.936 1.00 


Tỉ lệ gãy xương ở nhóm không phơi nhiễm và không phơi nhiễm: 





18 
=-=004 
P=ảm 
và 
115 
„=-T—=006 
P2 “Tre 
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Do đó, RR gãy xương là: 





Thay thế những số liệu này vào công thức PAE, chúng ta có: 

P(RR-I) _— 0813x(I45-1) 
PAF=—————~=— ca =027 
13(PRR—I)_ 1+0.813x(145-1) 

Kết quả này cho biết khoảng 27% ca gãy xương đùi trong cộng đồng là do. 
phơi nhiễm hoá chất (với giả định là mối liên hệ này độc lập với các yếu tố nguy 
cơ khác). 

Có thể dùng hàm epi .2by2 trong package epiR để ước tính PAE: 

1ibrary (epiR) 


đata = as.table(matrix(c(115, 1677, 18, 393), nrow=2, 
byrow=T) ) 


epi.2by2 (đata, method=*“cohort.count”, conf.level = 0.95) 


và kết quả như sau: 
> epi.2by2 (data, method=“cohort.count”, conf.level = 0.95) 


Outcome +  Outcome - Total Ine risk * 
Exposed + 115 1677 1792 6.42 
Exposed - 18 393 41 4.38 
Total 133 2070 2203 6,04 
0dds 
Exposed + 0.0686 
Exposed ~ 0.0458 
Total 0.0643 


Point estimates and 95 $ CIs: 
Ine risk ratio 1.47 (0.90, 2.38) 
0dds ratio 1.50 (0.90, 2.49) 
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Attrib risk * 2.04 (~0.24, 4.32) 


Attrib risk in population * 1.66 (-0.56, 3.87} 
Attrib fraction in exposed (8%) 31.75 (-10.85, 57.99} 
Attrib fraction in population ($) 27.46 (-10.35, 52.31) 





X2 test statistic: 2.447 p-value: 





Wald confidence limits 
* Outcomes per 100 population units 
Kết quả phân tích trên cho thấy PAF là 27.5% (tức gần với tính toán thủ 
công), nhưng epiR còn cung cấp khoảng tin cậy 95% của PAF đao động từ -10.4 
đến 52.3%. 





Câu hỏi 16.10 Ước tính tỉ lệ qui phân (attributable fraction) cho yếu 
tố nguy cơ đa thức. Nghiên cứu về mối liên hệ giữa mật độ xương (bone 
mineral density - BMD) và gãy xương của 2203 nữ sau mãn kinh. Năm 1990, 
các nhà nghiên cứu đo BMD của tất cả phụ nữ, và dựa vào BMD phân chia 
thành 3 nhóm: osteoporosis (loãng xương), osteopenia (thiếu xương), và 
normal (bình thường). Sau 10 năm theo dõi, các nhà nghiên cứu ghi nhận số 
ca gây xương trong từng nhóm. Kết quả có thể tóm lược trong bảng số liệu 
đưới đây. Hãy tính PAE, và trả lời câu hỏi bao nhiêu phần trăm ca gãy xương 











do BMD. 
BMD Gãy xương. Không gãy xương Tổng số 
Osteoporosis 132 441 573 
Osteopenia 156 682 837 
Normal 87 706 793 


Đáp: Phương pháp Levin vừa mô tả trong câu hỏi 17.9 chỉ áp dụng cho biến 
nhị phân. Trong trường hợp này, yếu tố nguy cơ có 3 giá trị (normal, osteopenia 
và osteoporosis), nên không thể áp dụng công thức trên. Một cách tính khác là 
phương pháp heuristic như Hanley mô tả trong một bài báo được công bố vào 
năm 2001 [2]. Thực chất, phương pháp này là một cách mở rộng phương pháp 
Levin. Phương pháp heuristic vẫn dựa vào 2 yếu tố P và RR. Chúng ta sẽ áp dụng 
phương pháp Levin mở rộng như sau: 
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Bước 1: ước tính tỉ lệ hiện hành cho từng giá trị của yếu tố nguy cơ (BMD). 
Chúng ta có 2203 phụ nữ, trong số này số có BMD bình thường là 793, do đó tỉ 
lệ hiện hành là 793 / 2203 = 0.36. Tính toán tương tự cho nhóm osteopenia và 
osteoporosis chúng ta có: 


BMD Tổng số Tiiệ 
Normal 793 036 
Osteopenia 837 038 
Osteoporosis s73 026 
Tổng 2203 1.00 


Bước 2: ước tính tỉ lệ phát sinh (incidence) gây xương. Tỉ lệ phát sinh được 
tính bằng cách lấy số ca gãy xương trong thời gian theo đõi chia cho tổng số phụ 
nữ trong nhóm. Chẳng hạn như đối với nhóm normal, tỉ lệ gãy xương (cũng có 
thể nói nguy cơ gãy xương) là 87 / 793 = 0.11 (hay 11%). 


BMD Tổng số Gây xương _ Tilệ phátsinh gãy xương 
Normal 793 87 0.110 
Osteopenia 837 156 0.186 
Osteoporosis 573 132 0.230 


Bước 3: ước tính tỉ số nguy cơ (RR), lấy nhóm normal làm nhóm tham chiếu 
(referent): 


BMD Tổng số Gãyxương  Tilệphátsinhgấyxương RR 

Normal 793 87 0.110 100 
Osteopenia 837 156 0.186 169 
Osteoporosis 573 132 0.230 209 


Chẳng hạn như đối với nhóm osteopenia, tỉ số nguy cơ là RR = 0.186 / 0.11 
= 1.69. Tương tự, RR cho nhóm osteoporosis là: 0.23 / 0.11 = 2.09. Nói cách khác, 
nguy cơ gãy xương ở nhóm loãng xương tăng gấp 2 lẩn so với nhóm normal. 


Bước 4: tính P(RR - 1) cho từng nhóm nguy cơ: 


BMD P RR P(RR - 1) PAF 
Normal 0436 1.00 0.000 $ 
Osteopenia 0438 1469 0.262 0.208 
Osteoporosis 026 209 0.283 0.237 
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Đối với nhóm nguy cơ, tích số của P và RR - 1 được trình bày trong cột 3 
trong bảng số liệu trên. Đó chính là tử số của từng nhóm nguy cơ. Mục tiêu ở đây 
là tính mẫu số bằng cách cộng thêm 1 (vì tổng PAF bằng 1): 

1 + 0.262 + 0.283 = 1.545 


Đó là mẫu số chung cho tất cả các nhóm nguy cơ. Do đó, PAF cho nhóm 
osteopenia là: 
0.262 
PAF(ast ==c=0.170 
(osteopenia) lên 
và nhóm osteoporosis là: 
0.283 


—=0.I83 


'PAF (osteoporosis, 
(osteopo K. 








Kết quả trên cho thấy khoảng 18.3% gãy xương là do ảnh hưởng của 
osteoporosis và 17% là do osteopenia. Tổng số ca gãy xương do thiếu xương và 
loãng xương là khoảng 18.3 + 17 = 35.3%. 


Đọc thêm: 


[1] Levin ML. The occurrence of cancer in man, Acta Unio Internationalis 
Contra Cancrum 1953; 9:531-41. 


[2] Hanley JA. A heuristic approach to the formulas for population. 
attributable fraction. J Epidemiol Community Health 2001; 55:508-14. 





Câu hỏi 16.11 Number needed to treat (NNT). Zoledronate là một loại 
thuốc phòng chống gãy xương. Kết quả một nghiên cứu qui mô về hiệu quả 
chống gãy xương hông của thuốc được công bố trên tập san New England 
Journal oƒ Medicine vào năm 2001 có thể tóm lược như sau: nhóm 1 gồm 3875 
bệnh nhân được điểu trị với zoledronate, và nhóm 2 gồm 3861 bệnh nhân 
trong nhóm đối chứng không được tiêm zoledronate mà chỉ uống calcium 
và vitamin D (còn gọi là nhóm chứng). Sau 3 năm theo dõi, có 92 người (tỉ 
lệ 2.4%) trong nhóm zoledronate gãy xương, và 310 người (hay 8.0%) trong 
nhóm chứng bị gây xương đốt sống (vertebral fracture). Hãy tính số bệnh. 
nhân cần được điểu trị để giảm 1 ca gãy xương. 
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Đáp: Nguy cơ mắc bệnh là xác suất một cá nhân mắc bệnh trong một thời 
gian phơi nhiễm nhất định trong một quần thể cụ thể. Gọi p, là nguy cơ gãy 
xương trong nhóm điểu trị, p, là nguy cơ mắc bệnh trong nhóm chứng. Giảm. 
nguy cơ tuyệt đối (sẽ viết tắt là ARR - absolute risk reduction) được định nghĩa 
như là độ khác biệt nguy cơ giữa hai nhóm bệnh nhân: 

ARR=p,~P, 


Giảm nguy cơ tương đối (relative risk reduction). Với hai nguy cơ, chúng 
ta có thể đễ dàng ước tính nguy cơ tương đối (relative risk - RR): 


RR=PL 
P 


Số người cần điểu trị để giảm một ca bệnh (NNT) được định nghĩa là: 


NNT= _— 
PT~P 


Phần lớn y văn, như trang web của Tập san British Medical Journal, định 
nghĩa rằng “The number of patients who need to be treated to prevent one 
additional event (số bệnh nhân cần được điểu trị để ngăn một ca bệnh). Nhưng 
định nghĩa đó ... sai! Thật ra, NNT là số bệnh nhân cần được điều trị để giảm một. 
ca bệnh. Chú ý, tôi dùng chữ giảm (reduce) chứ không phải ngăn ngừa (prevent) 
như nhiều bài báo trong y văn. 





Nhìn qua công thức trên chúng ta thấy nếu p, = p, hay RR = 1 thì NNT là 
số vô định (vì không thể chia cho 0). Nói cách khác, nếu không có hiệu quả lâm 
sàng thì NNT là vô định. Nếu độ khác biệt giữa p, và p, (phần mẫu số) càng cao 
thì NNT càng thấp; và ngược lại, nếu độ khác biệt càng thấp thì NNT càng cao. 
Điều này có nghĩa là nếu nguy cơ mắc bệnh cao, và nếu hiệu quả của thuốc cao 
(giảm nguy cơ mắc bệnh nhiều), thì chúng ta chỉ cần điểu trị một số ít bệnh 
nhân để giảm một trường hợp mắc bệnh. 

Quay lại kết quả trên, chúng ta có thước ước tính nguy cơ gãy xương ở 
nhóm điểu trị và nhóm chứng là: 

PP, =92 I3875 = 0.0237 

p, = 310 / 3861 = 0.0802 


Do đó, NNT = 1/ (0.0802 - 0.0237) = 18. Nói cách khác, chúng ta cần điểu 
trị 18 bệnh nhân trong 3 năm để giảm 1 ca gãy xương. 
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Câu hỏi 16.12 Xử lí giá trị trống (missing values). Quay lại dữ liệu pbc, 
hãy đọc dữ liệu vào R, và tạo nên một đối tượng tên là pbc. Dữ liệu có một số 
“missing values” (giá trị trống) trong các biến như chol, albumin, sgot, trig, 
v.v. Bạn hãy thực hiện các thao tác sau đây: 


(a) Thẩm định các xu hướng về giá trị trống, dùng biểu đồ. 

(b) Dùng phương pháp thích hợp để impute các giá trị trống. 

(c) Tạo ra một đataset mới với dữ liệu đẩy đủ. 

(4) So sánh kết quả phân tích hồi qui logistic giữa dữ liệu trống và dữ 
liệu đẩy đủ. 











Đáp: Giá trị trống là một vấn để rất thực tế trong nghiên cứu khoa học, 
vì chúng ta ít khi nào có một dữ liệu hoàn chỉnh. Bất cứ một thí nghiệm hay 
nghiên cứu nào cũng đều có vấn đề về đo lường và dữ liệu thu thập không đầy 
đủ. Đối với những người không có kinh nghiệm người ta thường loại bỏ dữ 
liệu trống, nhưng những người có kinh nghiệm thì dùng phương pháp thống 
kê hiện đại để “điển vào” những dữ liệu trống (còn gọi là imputation). Phương 
pháp imputation phổ biến nhất và đáng tin cậy nhất là mice (viết tắt từ thuật ngữ 
Multiple Imputation by Chained Equation) được triển khai trong chương trình 
mỉ ce trong R. 

Trước hết, chúng ta đọc dữ liệu vào R và dùng chương trình VIM để phát 
hiện xu hướng dữ liệu trống: 

pbc = read.csv (*~/Dropbox/Q&A Book/Datasets/pbc.csv”) 

1ibrary (VIM) 

aggr (pbc, prop=T, numbers=T) 
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lên, chứ không phải có 


Nhìn chung, xu hướng dữ liệu trống có vẻ ngẫu nhỉ 
hệ thống (xem biểu đồ dưới đây qua hàm mat rixp1ot): 
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Bây giờ, chúng ta có thể “impute” các giá trị trống bằng hàm mi ce trong 


chương trình mi ce : 
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v: S3 


Ước tính cỡ mẫu 
cho nghiên cứu khoa học 





trong những câu hỏi quan trọng nhất trước khi tiến hành nghiên cứu 

là cần bao nhiêu mẫu hay bao nhiêu đối tượng cho nghiên cứu. "Đối 
tượng” ở đây là đơn vị căn bản của một nghiên cứu, là số bệnh nhân hay số tình 
nguyện viên. Ước tính số lượng đối tượng cẩn thiết cho một công trình nghiên 
cứu đóng vai trò cực kì quan trọng, vì nó có thể là yếu tố quyết định sự thành 
công hay thất bại của nghiên cứu. Nếu số lượng đối tượng không đủ thì kết luận 
rút ra từ công trình nghiên cứu không có độ chính xác cao, thậm chí không thể 
kết luận gì được. Ngược lại, nếu số lượng đối tượng quá nhiều hơn số cẩn thiết 
thì tài nguyên, tiền bạc và thời gian sẽ bị hao phí. Do đó, vấn để then chốt trước 
khi nghiên cứu là phải ước tính cho được một số đối tượng vừa đủ cho mục tiêu 
của nghiên cứu. Số lượng đối tượng “vừa đủ” tùy thuộc vào loại hình nghiên cứu 
và hai thông số chính: 


«_ Mô hình (thể loại) nghiên cứu. 


M: công trình nghiên cứu thường dựa vào một mẫu (sample). Một 


+ - Phương pháp thiết kế nghiên cứu và tiêu chí lâm sàng (outcome measure). 
« Hệ số ảnh hưởng (effeet size). 
« Sai lầm mà nhà nghiên cứu chấp nhận, cụ thể là sai lầm loại I và II 
(power). 
Không biết [hay chưa quyết định] được thiết kế nghiên cứu và không có số 
liệu về hai thông số trên thì không thể nào ước tính cỡ mẫu. Kinh nghiệm của 
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người viết cho thấy rất nhiều người khi tiến hành nghiên cứu thường không có 
ý niệm gì về các số liệu này, cho nên khi đến tham vấn các chuyên gia về thống 
kê học, họ chỉ nhận câu trả lời: "không thể tính được”! Trong chương này tôi sẽ 
trình bày một số phương pháp đơn giản có thể dùng cho ước tính cỡ mẫu cho 
một nghiên cứu khoa học. 


Mô hình nghiên cứu 

Thông tin thứ nhất trong qui trình ước tính cỡ mẫu là thể loại nghiên cứu, 
bởi vì yếu tố này có ảnh hưởng đến phương pháp phân tích thống kê và vì thế 
phương pháp ước tính cỡ mẫu. Có thể phân biệt các thể loại nghiên cứu này dựa 
vào hai tiêu chí: thời gian và đặc tính. Về thời gian, các nghiên cứu thu thập dữ 
liệu tại một thời điểm hiện tại (present) được gọi là cross-sectional study (nghiên 
cứu tiêu biểu một thời điểm); các nghiên cứu có định hướng theo dõi tình trạng 
sức khỏe của đối tượng trong một thời gian, tức thu thập dữ liệu từng đối tượng 
nhiều lần (hiện tại và tương lai) được gọi là prospective (hay longitudinal) stuảy 
(nghiên cứu theo thời gian); và các nghiên cứu được tiến hành hiện tại nhưng có 
định hướng tìm hiểu quá khứ (past) được gọi là retrospective study. 





Nghiên cứu tại một thời điểm hay cross-sectional study (được dịch theo nghĩa. 
đen là "nghiên cứu cắt ngang”). Đây là một thiết kế mà các nhà nghiên cứu chọn 
một quần thể một cách ngẫu nhiên nhưng tiêu biểu cho một cộng đồng, tại một 
thời điểm nào đó. Nói cách khác, nhà nghiên cứu thu thập dữ liệu chỉ một lần 
duy nhất của các đối tượng ngay tại thời điểm đó (hiện tại). Mục đích chính của 
các nghiên cứu này là tìm hiểu tỉ lệ hiện hành (prevalence) của một bệnh nào đó, 
hay tìm hiểu mối tương quan giữa một yếu tố nguy cơ và một bệnh. 

Nghiên cứu đối chứng hay case-control study. Trong các nghiên cửu này, mục 
đích chính là tìm hiểu mối liên hệ giữa một (hay nhiều) yếu tố nguy cơ (risk 
factors) và một bệnh rất cụ thể. Để tiến hành nghiên cứu này, nhà nghiên cứu 
bắt đầu bằng một nhóm bệnh nhân và một nhóm đối tượng không bệnh (đối 
chứng), và "đi ngược thời gian” tìm hiểu những yếu tố nguy cơ mà cả hai nhóm 
phơi nhiễm trong quá khứ. 

Nghiên cứu xuôi thời gian (longitudinal study hay prospective study). Ngược 
lại với nghiên cứu đối chứng (trường hợp nhà nghiên cứu biết ai mắc bệnh và 
ai không mắc bệnh), với các nghiên cứu theo thời gian, nhà nghiên cứu bắt đầu 
bằng một nhóm không mắc bệnh, và theo đõi một thời gian sau để quan sát ai 
mắc bệnh hay không mắc bệnh trong thời gian đó. Ngược lại với nghiên cứu 
đối chứng (trường hợp nhà nghiên cứu đi ngược về quá khứ để tìm hiểu ai bị 
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phơi nhiễm yếu tố nguy cơ), với các nghiên cứu theo thời gian, nhà nghiên cứu 
biết ngay từ lúc ban đầu ai bị phơi nhiễm hay không phơi nhiễm yếu tố nguy cơ. 
Mục đích của các nghiên cứu xuôi thời gian thường là ước tính tỉ lệ phát sinh 
(incidence) bệnh trong một thời gian (điểu này khác với mục đích của nghiên 
cứu tại một thời điểm là ước tính tỉ lệ hiện hành - tức prevalence - của bệnh). 
Ngoài ra, các nghiên cứu theo thời gian còn cho phép nhà nghiên cứu tìm hiểu 
mối liên hệ giữa một hay nhiều yếu tố nguy cơ và nguy cơ phát sinh bệnh tật. 
Khác với nghiên cứu cross-section chỉ ghi nhận sự kiện tại một thời điểm, các 
nghiên cứu longitudinal phải theo dõi đối tượng trong một thời gian có thể là 
nhiều năm tháng. 


Tiêu chí 


Sau khi đã xác định thể loại nghiên cứu, nhà nghiên cứu cần phải quyết định 
chọn một tiêu chí so sánh chính (primary outcome measure) để căn cứ vào đó mà 
ước tính cỡ mẫu. Quyết định chọn tiêu chí so sánh là một quyết định vừa mang 
tính thực tế, vừa mang tính khoa học. Chẳng hạn như trong việc thẩm định hiệu 
quả của các phương pháp truy tìm ung thư, thì tỉ lệ phát hiện ung thư và điều trị 
không phải là tiêu chí có ý nghĩa thực tế, nhưng tỉ lệ tử vong và thời gian sống sót 
sau khi truy tìm ung thư mới là tiêu chí có ý nghĩa lâm sàng và thực tế. Mặc khác, 
tiêu chí phải đáp ứng các tiêu chuẩn khoa học về độ tin cậy và độ chính xác. Nếu 
một nghiên cứu có mục tiêu tìm hiểu hiệu quả của một loại thuốc phòng chống 
bệnh xơ vữa động mạch, thì độ cholesterol trong máu không thể được xem là tiêu 
chí có ý nghĩa lâm sàng, dù nó đáp ứng yêu cầu tính khoa học. Do đó, việc chọn 
một tiêu chí lâm sàng cho nghiên cứu cẩn phải cân nhắc rất cẩn thận. 


Mức độ ảnh hưởng 

Mức độ ảnh hưởng, nói một cách đơn giản, là một chỉ số về độ ảnh hưởng 
của một thuật can thiệp. Vì phản ảnh mức độ khác biệt, hệ số ảnh hưởng cho 
phép chúng ta tránh khỏi cách diễn dịch giới hạn bởi ngôn ngữ nhị phân (như 
*có hay không có ảnh hưởng?"), và tập trung vào một cách diễn dịch mang tính 
khoa học hơn (như “mức độ ảnh hưởng cao hay thấp cỡ nào?”). Ba trường hợp 
đơn giản sau đây sẽ minh hoạ cho khái niệm về hệ số ảnh hưởng: 

'Trường hợp 1: Trong một nghiên cứu gồm 50 bệnh nhân cao huyết áp được 
điều trị bằng một thuốc trong nhóm beta-blocker. Trước khi điểu trị, huyết áp 
tâm thu (SBP) trung bình cho cả nhóm là 140 mmHg và độ lệch chuẩn là 22 
mmmHg. Sau khi điểu trị, huyết áp tâm thu giảm xuống còn 125 mmHg. 


E 
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Trường hợp 2: Một nghiên cứu khác thẩm định hiệu quả của một thuốc 
chống loãng xương trong nhóm bisphosphonate. Nghiên cứu được tiến hành 
trên 50 bệnh nhân. Trước khi điểu trị, mật độ xương ở cổ xương đùi (femoral 
neck bone mineral density, viết tắt là BMD) trung bình là 0.68 g/cm” với độ lệch 
chuẩn 0.12 g/cm°, Sau 6 tháng điểu trị, BMD trung bình cho cả nhóm tăng lên 
0.72 g/cmˆ với độ lệch chuẩn 0.13 g/cm°. 


Trường hợp 3: Một nghiên cửu bệnh - chứng (case-control study) nhằm 
thẩm định ảnh hưởng của thói quen hút thuốc lá đến độ glucose trong máu. 
Nhóm hút thuốc lá gồm 30 người có độ glucose trung bình là 130 mg/dL với độ 
lệch chuẩn 35 mg/dL. Nhóm không hút thuốc lá gồm 70 người có độ glucose 
trung bình là 110 mg/dL với độ lệch chuẩn 50 mg/dL. 


Trong trường hợp 1, chúng ta có thể ước tính mức độ ảnh hưởng bằng cách 
lấy huyết áp sau khi điều trị trừ cho huyết áp trước khi điểu trị: d, = 125 - 140 = 
-15 mmHg. Tương tự, ảnh hưởng của thuốc bisphosphonate cho trường hợp 2 
là d, = 0.72 - 0.68 = 0.04 g/cm`. Và trường hợp 3, độ ảnh hưởng của hút thuốc lá 
có thể ước tính bằng d, = 130 - 110 = 20 mg/dL. 


Khó khăn trong cách ước tính độ ảnh hưởng trên đây là không thể so sánh 
trực tiếp được độ ảnh hưởng, bởi vì đơn vị đo lường khác nhau. Và quan trọng 
hơn nữa, độ dao động (phản ảnh bằng độ lệch chuẩn) giữa 3 trường hợp cũng 
rất khác nhau. Phương pháp so sánh trực tiếp ảnh hưởng lí tưởng là hoán chuyển 
sao cho cả ba trường hợp có cùng một đơn vị đo lường. Để đạt được mục đích 
này, cách đơn giản nhất là lấy độ ảnh hưởng chia cho độ lệch chuẩn. Tỉ số này có 
tên tiếng Anh là effect size (có khi còn gọi là standardized difjerence) mà tôi tạm 
địch là hệ số ảnh hưởng. Công thức chung cho ước tính hệ số ảnh hưởng (sẽ viết 
tắt bằng ES) là: 





Trong đó: 
«_¡ là số trung bình của nhóm can thiệp; 
«_ Ấụ là số trung bình của nhóm đối chứng; và 


»_ sạ là độ lệch chuẩn của nhóm đối chứng. 
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Hệ số ảnh hưởng của 3 trường hợp trên là: 

« Trường hợp 1: ESI = -15 /22 =0.68 

«Trường hợp 2: ES2 = 0.04 /0.12= 0.33 

«Trường hợp 3: ES3 = 20 / 50 = 0.40 

Nên nhớ rằng độ lệch chuẩn có cùng đơn vị đo lường với độ ảnh hưởng 
trung bình, cho nên hệ số ảnh hưởng không có đơn vị. Nói cách khác, đơn vị đo 
lường độ ảnh hưởng bây giờ là độ lệch chuẩn. Chẳng hạn như trong trường hợp 
1, thuốc beta-blocker có tác dụng giảm huyết áp tâm thu khoảng 0.68 độ lệch 
chuẩn, còn trong trường hợp 2, thuốc bisphosphonate tăng mật độ xương chỉ 
0.33 độ lệch chuẩn. Vì có cùng đơn vị so sánh, có thể nói [đơn giản] rằng hệ số 
ảnh hưởng của thuốc beta-blocker cao hơn thuốc bisphosphonate. 

Theo một qui ước [không có cơ sở khoa học mấy], một hệ số ảnh hưởng 
bằng 0.2 được xem là “thấp”, 0.5 là "trung bình” và >0.8 là "cao" Một hệ số ảnh 
hưởng 0.2 tương đương với độ khác biệt về chiểu cao của một em bé 15 tuổi và 
một em bé 16 tuổi. Một hệ số ảnh hưởng 0.5 tương đương với độ khác biệt về 
chiểu cao của một em bé 14 tuổi và một em bé 18 tuổi. Một hệ số ảnh hưởng 0.8 
tương đương với độ khác biệt về chỉ số thông minh (IQ) của một sinh viên năm 
thứ nhất và một tiến sĩ. 


Sai sót loại I, II và khái niệm “power” 
Thống kê học là một phương pháp khoa học có mục đích phát hiện, hay đi 


tìm những cái có thể gộp chung lại bằng cụm từ “chưa được biết” (unknown). 
Cái chưa được biết ở đây là những hiện tượng chúng ta không quan sát được, 
hay quan sát được nhưng không đẩy đủ. Cái chưa biết có thể là một ẩn số (như 
chiểu cao trung bình ở người Việt Nam, hay trọng lượng một phần tử), hiệu quả 
của một thuật điểu trị, tỉ lệ lưu hành (prevalence), tỉ lệ phát sinh (incidence) của 
bệnh, v.v... Chúng ta có thể đo chiều cao, hay tiến hành xét nghiệm để biết hiệu 
quả của thuốc, nhưng các nghiên cứu như thế chỉ được tiến hành trên một nhóm 
đối tượng, chứ không phải toàn bộ quần thể của dân số. Vấn để là sử dụng kết 
quả của một nhóm đối tượng để suy luận cho một quần thể lớn hơn. Mục đích 
của ước tính cỡ mẫu là tìm số lượng đối tượng sao cho suy luận đó đạt độ chính 
xác cao nhất và đẩy đủ nhất. 

Ở mức độ đơn giản nhất, những cái chưa biết này có thể xuất hiện dưới hai 
hình thức: hoặc là có, hoặc là không. Chẳng hạn như một thuật điểu trị có hay. 
không có hiệu quả chống gãy xương. Bởi vì không ai biết hiện tượng một cách 


E 
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đẩy đủ, chúng ta phải đặt ra giả thiết. Giả thiết đơn giản nhất là giả thiết vô hiệu 
hay giả thuyết đảo (hiện tượng không tồn tại, kí hiệu Ho) và giả thiết chính (hiện 
tượng tồn tại, kí hiệu Ha). 

Chúng ta sử dụng các phương pháp kiểm định thống kê (statistical test) 
như kiểm định ¿, F, z, cỶ, v.v... để đánh giá khả năng của giả thiết. Kết quả của 
một kiểm định thống kê có thể đơn giản chia thành hai giá trị: hoặc là có ý 
nghĩa thống kê (statistical significance), hoặc là không có ý nghĩa thống kê (non- 
signifñcance). Có ý nghĩa thống kê ở đây thường dựa vào trị số P: thông thường, 
nếu P < 0.05, chúng ta phát biểu kết quả có ý nghĩa thống kê; nếu P > 0.05 chúng 
ta nói kết quả không có ý nghĩa thống kê. Cũng có thể xem có ý nghĩa thống kê 
hay không có ý nghĩa thống kê như là có tín hiệu hay không có tín hiệu. Hãy tạm 
đặt kí hiệu T+ là kết quả có ý nghĩa thống kê, và T- là kết quả kiểm định không 
có ý nghĩa thống kê. 

Hãy xem xét một ví dụ cụ thể: để biết thuốc risedronate có hiệu quả hay. 
không trong việc điểu trị loãng xương, chúng ta tiến hành một nghiên cứu gồm 
2 nhóm bệnh nhân (một nhóm được điểu trị bằng risedronate và một nhóm 
chỉ sử dụng giả được placebo). Chúng ta theo đõi và thu thập số liệu gãy xương, 
ước tính tỉ lệ gãy xương cho từng nhóm, và so sánh hai tỉ lệ bằng một kiểm định 
thống kê. Kết quả kiểm định thống kê hoặc là có ý nghĩa thống kê (P < 0.05) hay 
không có ý nghĩa thống kê (P > 0.05). Xin nhắc lại rằng chúng ta không biết 
risedronate thật sự có hiệu nghiệm chống gãy xương hay không; chúng ta chỉ có 
thể đặt giả thiết. Do đó, khi xem xét một giả thiết và kết quả kiểm định thống kê, 
chúng ta có bốn tình huống: 

(a) Giả thuyết Ha đúng (thuốc risedronate có hiệu nghiệm) và kết quả kiểm 

định thống kê P < 0.05. 

(b) Giả thuyết Ha đúng, nhưng kết quả kiểm định thống kê không có ý: 

nghĩa thống kê. 

(c) Giả thuyết Ha sai (thuốc risedronate không có hiệu nghiệm) nhưng kết 

quả kiểm định thống kê có ý nghĩa thống kê. 

(4) Giả thuyết Ha sai và kết quả kiểm định thống kê không có ý nghĩa 

thống kê. 

Ở đây, trường hợp (a) và (d) không có vấn để, vì kết quả kiểm định thống kê 
nhất quán với thực tế của hiện tượng. Nhưng trong trường hợp (b) và (c), chúng. 
ta phạm sai lầm, vì kết quả kiểm định thống kê không phù hợp với giả thiết. 
Trong ngôn ngữ thống kê học, chúng ta có vài thuật ngữ: 


3H, 
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«xác suất của tình huống (b) xảy ra được gọi là sai lẩm loại II (type II 
error), và thường kí hiệu bằng b. 

«xác suất của tình huống (a) được gọi là Power. Nói cách khác, power 
chính là xác suất mà kết quả kiểm định thống cho ra kết quả P < 0.05 với 
điều kiện giả thiết Ha là thật. Nói cách khác: power = 1 - b. 

»_ xác suất của tình huống (c) được gọi là sai lẩm loại I (type I error, hay 
significance level), và thường kí hiệu bằng a. Nói cách khác, a chính là 
xác suất mà kết quả kiểm định thống cho ra kết quả P < 0.05 với điểu kiện 
giả thiết Ha sai. 

«_ xác suất tình huống (d) không phải là vấn để cần quan tâm, nên không có 
thuật ngữ, dù có thể gọi đó là kết quả âm tính thật (hay true negative). 


Có thể tóm lược 4 tình huống đó trong bảng sau đây: 


Các tình huống trong việc thử nghiệm một giả thiết khoa học 


























Giả thuyết Ha 
Kết quả kiểm định thống kê Đúng Sai 
- S (thuốc có hiệu nghiệm) thuốc không có 
hiệu nghiệm) 
Dương tính thật (power), 
Có ý nghĩa thống kế (P < 0.05) 1-b=P(S|Ha) Sai lầm loại I(type Ìerror) 
a=P(S| Ho) 
Không có ý nghĩa thống kê _ | Sailầmloạill(typeleron Tnhh 
(P>005) b=P(NS| Ha) là 
Chí thích: kí hiệu S trong bảng này có nghĩa là "significant' (tức P < 0.05); 





NS = "non-significant” (tức P > 0.05). Do đó, có thể mô tả 4 tình huống trên bằng 
ngôn ngữ xác suất có điểu kiện như sau: Power = 1 - b= P(S | Ha); b = P(NS | 
Ha); và a = P(S | Ho). Xin nhắc lại rằng kí hiệu toán học “P(A | B)” có nghĩa là 
một xác suất có điểu kiện, cụ thể hơn kí hiệu P(S | Ha) có nghĩa là "xác suất § xảy. 
ra nếu (hay với điểu kiện) Ha là đúng” 

Có lẽ những lí giải trên đây, đối với một số bạn đọc, vẫn còn khá trừu tượng. 
Một cách để minh họa các khái niệm power và trị số P là qua chẩn đoán y khoa. 
Thật vậy, có thể ví nghiên cứu khoa học và suy luận khoa học như là một qui 
trình chẩn đoán bệnh. Trong chẩn đoán, thoạt đấu chúng ta không biết bệnh 
nhân mắc bệnh hay không, và phải thu thập thông tin (như tìm hiểu tiền sử 
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bệnh, cách sống, thói quen, v.v...) và làm xét nghiệm (như quang tuyến X, như 
siêu âm, phân tích máu, nước tiểu, v.v...) để đi đến kết luận. 





Có hai giả thiết: bệnh nhân không có bệnh (kí hiệu Ho) và bệnh nhân mắc 
bệnh (Ha). Ở mức độ đơn giản nhất, kết quả xét nghiệm có thể là đương tính 
(+ve) hay âm tính (-ve). Trong chẩn đoán cũng có 4 tình huống và tôi sẽ bàn 
trong phần dưới đây, nhưng để vấn để rõ ràng hơn, chúng ta hãy xem qua một 
ví dụ cụ thể như sau: 





Trong chẩn đoán ung thư, để biết chắc chắn có ung thư hay không, phương. 
pháp chuẩn là dùng sinh thiết (tức giải phẫu để xem xét mô đưới ống kính hiển 
vi để xác định xem có ứng thư hay không có ung thư. Nhưng sinh thiết là một 
phẫu thuật có tính cách xâm phạm vào cơ thể bệnh nhân, nên không thể áp dụng 
phẫu thuật này một cách đại trà cho mọi người. Thay vào đó, y khoa phát triển 
những phương pháp xét nghiệm không mang tính xâm phạm để thử nghiệm 
ung thư. Các phương pháp này bao gồm quang tuyến X hay thử máu. Kết quả 
của một xét nghiệm bằng quang tuyến X hay thử máu có thể tóm tắt bằng hai giá 
trị: hoặc là đương tính (+ve), hoặc là âm tính (-ve). 

Nhưng không có một phương pháp thử nghiệm gián tiếp nào, dù tỉnh vi đến 
đâu đi nữa, là hoàn hảo và chính xác tuyệt đối. Một số người có kết quả đương 
tính, nhưng thực sự không có ung thư. Và một số người có kết quả âm tính, 
nhưng trong thực tế lại có ung thư. Đến đây thì chúng ta có bốn khả năng: 

» bệnh nhân có ung thư, và kết quả thử nghiệm là dương tính. Đây là 
trường hợp đương tính thật (danh từ chuyên môn là độ nhạy, tiếng Anh gọi là 
seHsitiVity); 


«bệnh nhân không có ung thư, nhưng kết quả thử nghiệm là đương tính. 
Đây là trường hợp đương tính giả (false positive); 


+ bệnh nhân không có ung thư, nhưng kết quả thử nghiệm là âm tính. Đây 
là trường hợp của âm tính thật (specificity); và, 


«bệnh nhân có ung thư, và kết quả thử nghiệm là âm tính. Đây là trường 
hợp âm tính giả hay độ đặc hiệu (ƒfalse negative). 


Có thể tóm lược 4 tình huống đó trong bảng sau đây: 
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Các tình huống trong việc chẩn đoán y khoa: kết quả xét nghiệm và bệnh. 
trạng 




















Bệnh trạng 
Kết quả xét nghiệm. 
Có bệnh Không có bệnh 
Thi) 'Độ nhạy hay dương tính thật mu n dã 
Âm tính giả 'Độ đặc hiệu hay âm tính thật 
~ve (âm tính) (false. tive) (SpeciRcity) 








Đến đây, chúng ta có thể nhận ra mối tương quan song song giữa chẩn đoán 
y khoa và kiểm định một giả thiết khoa học. Trong chẩn đoán y khoa có chỉ số 
đương tính thật, tương đương với khái niệm “power” trong nghiên cứu khoa 
học. Trong chẩn đoán y khoa có xác suất dương tính giả, và xác suất này chính 
là trị số P trong suy luận khoa học. Bảng sau đây sẽ cho thấy mối tương quan đó: 


Tương quan giữa chẩn đoán y khoa và suy luận trong khoa học. 









































Chẩn đoán y khoa. Kiểm định giả thiết khoa học 

Chẩn đoán bệnh Thử nghiệm một giả thiết khoa học 

Bệnh trạng (có hay không) Giả thiết khoa học (Ha hay Ho) 

Phương pháp xét nghiệm Kiểm định thống kê 

Kết quả xét nghiệm +ve Trị số P < 0.05 hay “có ý nghĩa thống kê” 

Kết quả xét nghiệm -ve Trị số P > 0.05 hay “không có ý nghĩa thống kê” 
Dương tính thật (sensitivity; độ nhạy) Power; 1~b =P(S | Ha) 

Dương tính giả (false positive) Sai lầm loại l; trị số p; a; P(S | Ho) 

Âm tính giả (false negative) Sai lầm loại I; b; b = P(NS | Ha) 

Âm tính thật (độ đặc hiệu, hay specifcity) | Âm tính thật; 1 -a = P(NS | Ho) 

Cũng như các phương pháp xét nghiệm y khoa không bao giờ hoàn hảo, các 
phương pháp kiểm định thống kê cũng có sai sót. Và do đó, kết quả nghiên cứu 
lúc nào cũng có độ bất định (như sự bất định trong một chẩn đoán y khoa vậy). 
Vấn để là chúng ta phải thiết kế nghiên cứu sao cho si sớí loại I và II thấp nhất. 
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Câu hỏi 17.1 Ước tính cỡ mẫu cho một tỉ lệ. Chúng ta muốn ước tính 
số cỡ mẫu cẩn thiết để xác định tỉ lệ viêm gan siêu vi B, với điểu kiện khoảng 
tin cậy 95% không cao hơn 5%. Trước đây, có ng cứu ở Việt Nam cho 
biết tỉ lệ viêm gan siêu vi B là khoảng 20%. Câu hỏi đặt ra là chúng ta cần bao 
nhiêu đối tượng? 














Đáp: Để trả lời câu hỏi, chúng ta gọi tỉ lệ nhiễm Hep B là p. Nếu chúng ta có 
n người, thì sai số chuẩn (standard error - SE) là: 
p+1.96x SE 
Trong đó: 
SE= jpt~p)/n 
§$E còn có tên là margin error. Công thức trên có nghĩa là chiểu rộng của 
khoảng tin cậy là w = 2x1.96xSE. 
Quay lại trường hợp trên, chúng ta ước tính p = 0.20 (tức tỉ lệ nhiễm Hep 
B là 20%), và margin error là 0.05 (hay 5%). Chúng ta muốn ước tính ø sao cho. 
1.96x§E < 0.05. Nói cách khác: 
1.96(pd— p)/n <0.05 


Giải phương trình trên bằng cách lấy bình phương 2 bên, chúng ta có: 


1.96 \Ÿ 
>z|—| pu- 
" (5) pũ-=?) 


Thay thế p = 0.20, chúng ta có giá trị tối thiểu của m là 246. 





#p = tỉ lệ hiện hành muốn ước tính 

#m =margin error (sai số chuẩn). 

# giả dụ khoảng tin cậy 95%, tức alpha = 0.05 
#n = số cỡ mẫu cần thiết 


p=020 

m=005 

n =(1.96/m)^2*p*(1 - p) 
cbind(p, m, n) 











Cũng có thể dùng chương trình epiDisplay như sau: 
1ibrary (epiDisplay) 
n.for.survey(p=0.20, delta=0.05, alpha=0.05) 
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Sample size for survey. 
Assumptions: 

Proportion = 0.2 

Confidence limit = 95 %, 

Delta = 0.05 from the estimate. 


Sample size = 246 








Câu hỏi 17.2 Ước tính cỡ mẫu cho một số trung bình. Công ty nhập 
cảng thịt gà nhận một lô hàng gồm 2,000 con gà và muốn kiểm tra xem trọng 
lượng trung bình là bao nhiêu. Công ty biết trong quá trình rằng độ lệch 
chuẩn (standard deviation) trọng lượng là khoảng 0.2 kg. Công ty cần kiểm 
tra bao nhiêu con gà để sao cho khoảng tin cậy 95% của trọng lượng thấp 
hơn 0.1 kg (tức 100 g). 











Đáp: Gọi trọng lượng trung bình là x, độ lệch chuẩn là s. Nói chung, khoảng 
tin cậy 95% của số trung bình có thể tính bằng: 


x#I1.96xs/VÝm 


Công thức trên, margin error là # =1.96xs/Vn. Do đó, có thể giải phương 
trình trên cho ú: 
Ũ 
(= } 
n= 
đ 
Trong trường hợp trên, chúng ta có: s = 0.2 kg, đ = 0.1/2 = 0.05. Với các 


thông số trên số cỡ mẫu chúng ta cần cân 61 con gà. 
Dùng R: 








# s = độ lệch chuẩn 
# d = margin error 
#ằn = số cỡ mẫu cần thiết 


0.20 

0.05 

n = (1.96*s/d)^2 
cbind(s, d, n) 
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Câu hỏi 17.3 Ước tính cỡ mẫu cho 2 tỉ lệ. Một nghiên cứu lâm sàng 
đánh giá hiệu quả của một loại thuốc chống gãy xương. Hai nhóm bệnh nhân 
sẽ được tuyển. Nhóm 1 được điểu trị bằng thuốc, và nhóm 2 là nhóm đối chứng, 
(giả dược hay placebo). Các nhà nghiên cứu giả thiết rằng tỉ lệ gãy xương trong, 
nhóm 2 là khoảng 10%, và thuốc có thể làm giảm tỉ lệ gãy xương khoảng 40% 
(tức tỉ lệ trong nhóm điều trị là 6%). Nếu các nhà nghiên cứu muốn thử nghiệ: 
giả thiết này với sai sót là 0.01 và power = 0.90, bao nhiêu bệnh nhân cẩn phải 
được tuyển mộ cho nghiên cứu? 














Đáp: Gọi tỉ lệ của hai nhóm là p, và p, và gọi tỉ lệ trung bình là p. Trong đó 

P= (p,+ p,) !2. Theo lí thuyết, cỡ mẫu cần thiết cho mỗi nhóm là (xấp xì): 
„- 2P P2 +zg)” 
(p.—pạ)? 

Trong đó, z,„„ và z, là hai hằng số phản ảnh sai sót loại I và loại II. Chẳng hạn 
như nếu a = 0.05 và B = 0.20 thì (z,., + z,)°= 7.84, hay nếu a = 0.01 và Š = 0.20 thì 
(Z„„+ 2g) = 13.32, hay nếu a = 0.05 và B = 0.10 thì (Z„„+ z4) = 10.5. Chúng ta có 
thể dùng hàm n.for.2p để có đáp số: 

1ibrary (epiDisplay; 


n.for.2p(p1=0.10, p2=0.06, power=0.9, alpha=0.01, ratio=1) 
> n.for.2p(p1=0.10, p2=0.06, power=0.9, alpha=0.01, ratio=1 


Estimation o£ sample size for testing Ho: pl==p2 


Assumptions: 
alpha = 0.01 
power = 0.9 

p1 = 0.1 
P2 = 0.06 
n2/n1 = 1 


Estimated required sample size: 
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n1 = 1416 
n2 = 1416 
n1 + n2 = 2832 
Kết quả cho biết nghiên cứu cần 1416 bệnh nhân cho mỗi nhóm (hay 2832 
bệnh nhân cho toàn nghiên cứu). 





Câu hỏi 17.4 Ước tính cỡ mẫu cho 2 số trung bình. Để đánh giá hiệu 
quả của thuốc chống loãng xương, nhà nghiên cứu thiết kế một nghiên cứu. 
lâm sàng gồm 2 nhóm bệnh nhân: nhóm 1 được điểu trị bằng thuốc mới, 
nhóm 2 là nhóm chứng (placebo). Biến kết quả là mật độ xương hay BMD 
(tính bằng g/cm°). Qua nghiên cứu sơ khởi, nhà nghiên cứu biết rằng BMD 
trung bình ở phụ nữ sau mãn kinh là m, = 0.80 g/cm và độ lệch chuẩn là 
s= 0.12 g/cm?. Qua y văn, nhà nghiên cứu biết rằng thuốc có thể tăng 
BMD 5% sau 1 năm điểu trị. Do đó, có thể nói mục tiêu là BMD trung 
bình của nhóm điểu trị là m, = 0.8 x 1.05 = 0.84. Giả dụ rằng độ lệch 
chuẩn của nhóm 2 cũng là 0.12 g/cm°. Nói cách khác, độ ảnh hưởng ES là: 
ES = (0.84 - 0.80) / 0.12 = 0.33. Nhà nghiên cứu muốn có power là 80% và sai 
sót loại I là 5%. Hỏi nghiên cứu cần bao nhiêu đối tượng? 











Đáp: Gọi trị số trung bình của nhóm 2 là x, và nhóm placebo là x„ chúng, 
ta có: x, = 0.8*1,05 = 0.84 g/cm° (tức tăng 5% so với nhóm 1), và do đó, hiệu số 
d= 0.84 - 0.80 = 0.04 g/cm'. Độ lệch chuẩn là s = 0.12 g/cm?. Với power = 0.90 
và q = 0.05, cỡ mẫu cẩn thiết là: 

mẽ 2$ˆ(Z„/>+zg)” 


(m —m;) 
Nhớ rằng mức độ ảnh hưởng ES là: 


(mị — 





ES= 
Ẵ 


Do đó, công thức trên cũng có thể viết lại đơn giản hơn: 


» 





(ES} 


Nếu a = 0.05 và B = 0.20 (tức power bằng 0.8), thì công thức trên còn đơn 
giản hơn: 
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16 
(ES)? 








Chúng ta có thể dùng hàm n.for.2means trong epiDisplay để ước tính cỡ 
mẫu: 


1ibrary (epiDisplay) 


> n.for.2means (mu1=0.80, mu2=0.84, sd1=0.12, sd2=0.12 
power=0.9, alpha=0.05, ratio=l) 





Estimation of sample size for testing Ho: mul==mu2 
Assumptions: 


alpha = 0.05 
power = 0.9 





n2/n1 = 1 
mui = 0.8 
mu2 = 0.84 
sd1 0.12 
sd2 = 0.12 


Estimated required sample size: 


n1 = 190 
n2 = 190 
n1 + n2 = 380 


Kết quả cho thấy nhà nghiên cứu cần tuyển n = 380 bệnh nhân (190 cho mỗi 
nhóm) cho công trình nghiên cứu. 
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Câu hỏi 17.5 Ước tính cỡ mẫu cho tỉ số nguy cơ (risk ratio). Nhà nghiên 
cứu muốn đánh giá mối liên quan giữa hút thuốc lá và bệnh tim mạch qua 
một nghiên cứu đoàn hệ mà đối tượng sẽ được theo dõi 5 năm. Trước đây, có 
nghiên cứu cho thấy tỉ lệ tử vong vì bệnh tim mạch mỗi năm ở người không. 
hút thuốc lá là 413 / 100,000. Nhà nghiên cứu giả định rằng hút thuốc lá sẽ 
tăng nguy cơ tử vong 40% (nói cách khác, RR = 1.4). Nhà nghiên cứu muốn 
ước tính số cỡ mẫu (số người hút thuốc lá và không hút thuốc lá) cần thiết 
với điểu kiện a = 0.05 (một chiểu) và power = 90% (tức beta = 0.1). 











Đáp: Công thức ước tính cỡ mẫu cho một nghiên cứu với tỉ số nguy cơ là 
chỉ số đo lường hiệu quả phụ thuộc vào [dĩ nhiên] tỉ số nguy cơ và các tỉ lệ của 
biến lâm sàng (ví dụ như tử vong). Gọi n, và n, là số cỡ mẫu của hai nhóm, và nếu 
n=n, thì r= m, fn, = 1. Gọi tỉ số nguy cơ là RR, z là tỉ lệ tử vong ở nhóm chứng 
(không hút thuốc lá), p, là tỉ lệ tử vong trung bình của hai nhóm, tổng số cỡ mẫu 
(=m, + n,) có thể ước tính theo công thức sau: 


cn [n+i:Ÿ 


““T RR-D) z 


trong đó, 





h =Zz((r+1) p, (L— p.) 
t; =zg\|RR.Z(1— RR.z)+ rZ(L—Z) 


_ z(r.RR+1) 
—— r+] 


và 
; 


Ở đây, chúng ta có thể ước tính vài thông số cẩn thiết như sau: tỉ lệ tử vong 5 
năm nhóm không hút thuốc là p = 5 x 413/100000 = 0.02065, và vì RR = 1.4, nên 
tỉ lệ tử vong ở nhóm hút thuốc lá là m, = 0.02065 x 1.4 = 0.02891, z„„ = 1.6449, 
Z¿¡y = 1.2816. Nếu r = 1, chúng ta có tỉ lệ tử vong trung bình là: 


0.026Sx(I.4 
g.=00265*(4*1) _ 0 poxrg 
(+!) 


005 


Và: 





¡¡ =1.6449./(1+1)x0.02478(1—0.02478) = 0.3616233 
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r„ =1.2816,/0.02891x(1~ 0.02891) + 0.02065 x (1—0.0206S) = 0.2816541 


tổng số cỡ mẫu là: 





= x-i* ,Ï= [ỰE——[0.3616+0.28165Ƒ =12130 
` r(RR 1(0.4)' (0.02065)” 


Nói cách khác, nhà nghiên cứu cần tuyển 12130 cá nhân (6065 người hút 
thuốc và 6065 người không hút thuốc) cho công trình nghiên cứu. 


Có thể dùng hàm epi.cohortsize trong epiR và có cùng kết quả: 





1ibrary (epiR) 


smoke=1. 4* (5*413) /100000 


nonsmoke= (5*413) /100000 





epi.cohortsize (exposed=smoke, unexposed=nonsmoke, 
n=NA, power=0.90, r=1, design=l, sided.test=l, conf. 
1eve1=0.. 95) 


§n.crude 
[1] 12130 


$§n.total 
[1] 12130 


§n.exposed 
(1] 6065 


ận.unexposed 
[1] 6065 











Kết quả cho thấy nhà nghiên cứu cẩn tuyển 12130 đối tượng. Nhưng nếu 
tỉ lệ hút thuốc lá trong cộng đồng là 1/3 (33%), thì cỡ mẫu sẽ thấp hơn (khoảng 
12000 người): 

> epi.cohortsize (exposed=smoke, unexposed=nonsmoke, 

n=NA, power=0.90, r=1/3, design=l, sided.test=l, conf. 

1eve1=0. 95) 
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$n.crude 
[1] 15982 


$n.total 
[1] 15982.66667 


§n.exposed 
[1] 3995.666667 


§n.unexposed 
[1] 11987 





Câu hỏi 17.6 Ước tính cỡ mẫu cho odds ratio trong nghiên cứu bệnh 
chứng. Một nghiên cứu bệnh chứng về mối liên quan giữa hút thuốc lá và 
bệnh tim mạch được hoạch định. Theo kế hoạch, một nhóm bệnh nhân và một 
nhóm chứng (cỡ mẫu như nhau, tức r = 1) sẽ được so sánh về tỉ lệ hút thuốc 
lá. Các nhà nghiên cứu đặt giả thuyết là tỉ số nguy cơ là 2, khoảng 30% người 
trong cộng đồng hút thuốc lá. Câu hỏi đặt ra là cần bao nhiêu người cho nghiên 
cứu để có power 90% để phát hiện tỉ số đó có ý nghĩa thống kê ở mức độ 5%. 











Đáp: Trong nghiên cứu bệnh chứng, như để cập trong phần đầu, mục tiêu là 
so sánh tỉ lệ phơi nhiễm yếu tố nguy cơ giữa nhóm bệnh và nhóm chứng. Gọi E 
là có yếu tố nguy cơ, NE là không có yếu tố nguy cơ, D là bệnh, ND là không mắc 
bệnh (nhóm chứng). Trong nghiên cứu bệnh chứng, chúng ta có thể ước tính mt, 
là xác suất E trong nhóm bệnh, và m, là xác suất E trong nhóm chứng: 

m,= P(E | D) 
T, = P(E | ND) 
Giả thuyết đặt ra là: 
H0: n, = TL 
HA: /,=À 

Xin nhắc lại rằng chúng ta không biết mự, và mơ, trong quần thể. Tuy nhiên, với 
mẫu nghiên cứu, chúng ta có thể ước tính hai chỉ số tương ứng là p, và p,. Gọi 
P= xác suất phơi nhiễm yếu tố nguy cơ = P(E), chúng ta có thể nói rằng tỉ lệ quan 
sát p, ~ P. Với giả thuyết HA, chúng ta có tỉ lệ phơi nhiễm yếu tố nguy cơ trong, 


nhóm chứng là: 
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ẤP 


®“1x+(4-DP 


Số cỡ mẫu + có thể ước tính từ các lí giải trên như sau: 


ứ+Ð[I+(4-0PƑ ÃP0~P) l 
“ h  rZz2Vv+ÐP0—P )+z;z |“ +rPú-P) 
TS... ~_ 


Trong đó: r là tỉ số cỡ mẫu nhóm bệnh trên nhóm chứng (thường r = 1), và 


ExP|—1— 
°- 1+r|l+(2-DP 


Trong trường hợp này, chúng ta có: P = 0.30, À = 2, z,„„= 1.96, và Z,= 1.2816. 
'Thay các giá trị này vào phương trình trên: 


p.=Ð3[—2— + |= 0.3808 
2z[I+0a 








và số cỡ mẫu là: 


ý ? 
n=— 1.96./2(03808/0:6193) +I.28 |2(0-3)/07) „(03x 0.7) | =376 
0.3°(~0.7) 13 


Có thể dùng hàm epi.ccsize trong epïR và có cùng kết quả: 


1ibrary (epiR) 


epi.ccsize(OR = 2, p0=0.30, n=NA, power=0.90, r=1, 
sided.test=2, con£.level=0.95, method=“unmatched”) 


> epi.ccsize(OR = 2, p0=0.30, n=NA, power=0.90, r=1, 
sided.test=2, conf.1evel=0.95, method=”unmatched”) 


$n.total 
[1] 376 


$n.case 
[1] 188 


$n.control 
[1] 188 


Trong hàm trên, nhóm control và treat được cho giá trị sao cho OR = 2, tỉ 
lệ hút thuốc lá là 30%. Kết quả là 376 đối tượng cần được tuyển cho nghiên cứu. 
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Câu hỏi 17.7 Ước tính cỡ mẫu so sánh hai survival curve hoặc ước 
tính hazard ratio. Một nghiên cứu lâm sàng theo mô hình RCT nhằm mục 
đích đánh giá hiệu quả của levamisole (một loại thuốc điểu trị ung thư ruột) 
so với nhóm chứng (placebo). Qua y văn, biết rằng tỉ lệ sống sót trong vòng, 
1 năm của nhóm chứng là 50%, và hi vọng rằng nhóm được điều trị là 60%. 
Nghiên cứu cần quan sát bao nhiêu biến cố cho mỗi nhóm? 











Đáp: Số biến cố cẩn quan sát để đạt œ = 0.05 và  = 0.20 là 172 cho nhóm I 
và 172 cho nhóm 2. 
(„2 + cố) tù : 
+ (I-HR để tính. Trong đó, 
chúng ta có , = 0.5 và mr, = 0.60, HR = log(0.6) / log(0.5) = 0.7369, và nếu r= 1 





Có thể áp dụng công thức e, = 


(cỡ mẫu hai nhóm bằng nhau): 


_ (96+ 0.842)” ( si” 
1” (+0)xI 1-0.7369 j — 


Cũng có thể tính bằng hàm epi.survivalsize trong package epiR. 
như sau (kết quả 169 biến cố): 


epi.survivalsize (treat=0.50, control=0.60, n=NA, 
power=0.80, r=l, design=l, sided.test=2, conf. 
level=0. 95) 


> epi.survivalsize(treat = 0.50, control = 0.60, n = NA, 
power = 0.80, r = 1, design = 1, sided.test = 2, conf. 
level = 0.95) 


$n.crude 
[1] 338 


$§n.total 
[1] 338 


$n.treat 
[1] 169 
$n.control 
[1] 168 
337 — 
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Câu hỏi 17.8 Ước tính cỡ mẫu cho nghiên cứu chẩn đoán. Nhà nghiên 
cứu muốn đánh giá độ nhạy của một xét nghiệm mới trong việc chẩn đoán 
rối loạn cường dương. Biết rằng trong cộng đồng có khoảng 55% người rối 
loạn cường dương. Nghiên cứu trước đây cho thấy độ nhạy của phương pháp 
xét nghiệm hiện hành là 859%. Nhà nghiên cứu hỉ vọng rằng xét nghiệm mới 
sẽ có độ nhạy 95%, và muốn ước tính số cỡ mẫu cẩn thiết cho nghiên cứu với 
điều kiện a = 0.05 (một chiểu) và B = 0.20. 











Đáp: Trong nghiên cứu chẩn đoán, nhà nghiên cứu hay quan tâm đến hai 
chỉ số quan trọng: độ nhạy (sensitivity) và độ đặc hiệu (specifcity). Độ nhạy, có 
khi hiểu là đương tính thật hay true positive, là xác suất bệnh nhân có kết quả 
dương tính (+ve). Độ đặc hiệu, có khi hiểu là âm tính thật hay frưe negative, là 
xác suất một người không có bệnh có kết quả xét nghiệm âm tính (-ve). Gọi D 
là bệnh, ND là không bệnh, định nghĩa trên có thể viết theo ngôn ngữ xác suất 
như sau: 


Sensitivity = P(+ve | D) 
§pecificity = P(-ve | ND) 

Do đó, trong nghiên cứu chẩn đoán, chúng ta muốn biết cẩn bao nhiêu bệnh 
nhân (n,) để "chứng minh” một độ nhạy khác với độ nhạy. Thông thường, chúng, 
ta muốn so sánh độ nhạy của nghiên cứu (Se) với độ nhạy hiện tại (Se,). Phương, 
pháp ước tính n„ có thể dựa vào phương pháp ước tính cỡ mẫu cho 2 tỉ lệ (2): 


[:„›\Sa0=Sa)+zz(Se0=52 ]Ì 


tụ = 2 
(Sey — S6)? 


Nếu nghiên cứu muốn so sánh hai độ nhạy (Se, và Se,), công thức trên có 
thể chỉnh sửa thành (cho hai nhóm độc lập): 





[z„s 4(Se, + Sẽ;)(2— Sẽ, — Se;) + za|2[Sa (1—§)+ Se;(I— Sẽ; DI 
(S6, — Se;)° 





ng = 


Công thức trên ước tính cỡ mẫu cho 2 nhóm độc lập. Trong nhiều trường 
hợp, nhà nghiên cứu có thể so sánh độ nhạy trong cùng một nhóm, và số bệnh 


cần thiết là: 
[: 2A+zzjA° ~£G+A)/4] 


Tạ = 1 
à ^e 





'lpe/fielun heploerg 


trong đó, 
A =(—S4,)S6; + (I— Se;)Se, 


£=(~S%4,)%; ~(1—%,)S6 


Với những thông tin trên, chúng ta có z„„„ = 1.645, z,,„ = 0.842. Số cỡ mẫu 


o3 
cần thiết là: 
Ũ .645.(0.86)(1—0.86) +0.842./(0.95(1— 095)) | 


H 
7 =70 
(0.95—0.86) 





ki 


Nhà nghiên cứu cẩn tuyển 70 bệnh nhân và số không mắc bệnh (tính theo tỉ 
lệ hiện hành 55%) là 70 / 0.55 = 127. Tính chung, công trình nghiên cứu cần 197 
cá nhân. Phương pháp trên cũng có thể tính qua hàm power.điagnostie. 
test trong chương trình MKmi sC: 

1ibrary (MKmisc) 

# Tính cỡ mẫu cho độ nhạy của test mới 95%, độ nhạy của test cũ 0.85 (tức 
đelta = 0.10), với power là 80%: 


power.diagnostic. test (sens=0.95, delta=0.10, power=0.80) 


> power.diagnostic. test (sens=0.95, delta=0.10, 
power=0.. 80) 


Diagnostic test exact power calculation 


sens = 0.95 


n = 68 
n1 = 68 
delta = 0.1 


sig.level = 0.05 
power = 0.8 
prev = NUILL 

Kết quả tính toán hơi khác nhưng xấp xỉ so với tính thủ công. 
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Câu hỏi 17.9 Ước tính cỡ mẫu cho nghiên cứu chẩn đoán. Một nghiên 
cứu có mục tiêu là so sánh hai độ nhạy của hai phương pháp xét nghiệm để 
chẩn đoán bệnh viêm răng với mức độ ý nghĩa thống kê 5% (kiểm định hai 
chiều) và power 80%. Nhà nghiên cứu giả định rằng xét nghiệm 1 có độ nhạy 
là 66%, và xét nghiệm 2 có độ nhạy 27%. Hãy ước tính số cỡ mẫu cần thiết 
cho nghiên cứu. 











Đáp: Với những số liệu trên, số bệnh nhân cần thiết là: 


1.96 (0.27 +0.66)(2=0.27=0.66) + 0.842./2|0.27(1= 0.27) +0.66(1=0.66)] Ï 
=49 








tụ = si 
k (0.66~0.27)2 


Nếu tỉ lệ viêm răng trong cộng đồng là 25%, số nhóm chứng có thể ước tính 
là 49 / 0.25 = 200. Tính chung, nhà nghiên cứu cẩn tuyển mộ 49 bệnh nhân và 
200 người thuộc nhóm chứng cho công trình nghiên cứu. 

Tuy nhiên, nếu hai xét nghiệm có thể làm trên 1 nhóm đổi tượng thì: 

A =(1=0.27)0.66 +(1=0.66)0.27 = 0.5736 


và 
ế= (1=0.27)0.66 = (1=0.66)0.27 = 0.3900 


Công thức trên sẽ cho ra kết quả cỡ mẫu cẩn thiết: 


Ẻ 
[ .96x0.5736 +0.8416.(0.5736 ~ 0.3900 (3+ 0.5736) d4] 
=2 





Làn) 7 
0.5736 x0.3900ˆ 
Do đó, số cỡ mẫu cần xét nghiệm là 26 / 0.25 = 104 (giả định rằng tỉ lệ viêm 
răng là 25%). 





Câu hỏi 17.10 Ước tính cỡ mẫu cho đường biểu diễn ROC. Nhà nghiên 
cứu muốn ước tính số cỡ mẫu cẩn thiết để đánh giá độ chính xác của MRI 
trong việc chẩn đoán viêm khớp xương. Khoảng 40% cá nhân có viêm khớp 
xương. Qua y văn, nhà nghiên cứu biết rằng độ nhạy là 45% và độ đặc hiệu 
là 90%, và khoảng tin cậy của AÚC là w = 10% (tức 0.1). 











Đáp: Đường biểu diễn ROC là một chỉ số thống kê phản ảnh mức độ phân 
biệt (discrimination) bệnh và không bệnh của một phương pháp xét nghiệm. 





'lpe/fielun heploerg 


Trong chẩn đoán, khi phương pháp xét nghiệm tăng độ nhạy thì độ đặc hiệu 
sẽ giảm, và ngược lại, khi độ nhạy giảm thì độ đặc hiệu tăng. ROC là một “thỏa 
hiệp” giữa độ nhạy và độ đặc hiệu, để có độ nhạy và độ đặc hiệu tối ưu nhất. 

Đường ROC được vẽ với trục tung là độ nhạy, và trục hoành là tỉ lệ dương 
tính giả (EPR - false positive rate). FPR thật sự là 1 trừ cho độ đặc hiệu. Diện tích 
dưới đường ROC được gọi là area w=der the curve (AUC). Mục tiêu của nghiên 
cứu chẩn đoán thường là (a) ước tính AUC, hoặc (b) so sánh các phương pháp 
xét nghiệm là so sánh AUC sao cho có ý nghĩa thống kê. Đối với nghiên cứu có 
mục tiêu ước tính AUC trong một khoảng tin cậy w, công thức ước tỉnh số bệnh 
nhân cẩn thiết là: 


Trong đó: 





A=z, 
Chú ý: FPR = 1 - độ đặc hiệu, và TPR = độ nhạy. 
Với các thông tin trên, chúng ta có thể tính: R = 0.6 / 0.4 = 1.5, FPR = 0.1, 


Z, 


L-EPR — “I-TPR 


'TPR = 0.45. Do đó, z„, = 1.2816, và z„„„ = 0.1257, A = 1.2816 - 0.1257 = 1.1559, 


ø =0.3265 (các bạn có thể kiểm tra). Từ đó, số cỡ mẫu cần thiết là: 


„= 't# |» =164 
0IỀ 





Số đối tượng nhóm chứng là 164 x 1.5 = 246. Tính chung, nhà nghiên cứu. 
cẩn 164 + 246 = 410 đối tượng. 


Vài nhận xét về ước tính cỡ mẫu 





Trong nghiên cứu khoa học, đặc biệt là những công trình nghiên cứu liên 
quan đến con người và động vật, việc xác định cỡ mẫu là một bước cực kì quan 
trọng. Quan trọng vì số lượng đối tượng nghiên cứu quyết định ngân sách và 
qui mô của nghiên cứu. Ngoài ra, đứng trên quan điểm y đức, số lượng đối 
tượng cũng liên quan đến đạo đức khoa học. Một nghiên cứu có quá ít đối tượng 
sẽ không có khả năng kiểm định giả thuyết và kết quả chẳng có ý nghĩa gì, và 
nghiên cứu đó được xem là vi phạm đạo đức. Ngược lại, một nghiên cứu có quá 
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nhiều đối tượng hơn số cẩn thiết cũng là một vi phạm đạo đức, vì gây bất tiện 
không cẩn thiết cho những người tham gia. Đối với các nghiên cứu về thuốc, 
xác định cỡ mẫu còn có ý nghĩa pháp lí trong việc đăng kí thuốc. Hội nghị ICH 
(International Conference on Harmonization) có qui định rằng các công ty dược 
muốn đăng kí được phẩm phải đệ trình đẩy đủ hồ sơ và dữ liệu, trong đó phải có 
phẩn phương pháp ước tính cỡ mẫu. Do đó, tuy là bước đầu trong nghiên cứu, 
nhưng việc xác định cỡ mẫu là một bước trung tâm trong thiết kế nghiên cứu. 

Xác định cỡ mẫu là một khoa học, nhưng cũng có thể xem là một nghệ 
thuật. Tính khoa học của ước tính cỡ mẫu là cơ sở lí thuyết xác suất và giả định 
đẳng sau mỗi công thức tính. Chính vì cơ sở khoa học này mà các phép tính 
phải mang tính tái thiết lập (repeatability). Nếu phương pháp tính toán được mô 
tả đẩy đủ và minh bạch, người khác có thể đi đến cùng kết quả, và điểu đó rất 
quan trọng trong tính minh bạch. Tuy nhiên, trong thực tế thì không hẳn như 
thế. Trong một thẩm định và phân tích 446 để cương nghiên cứu đệ trình cho uỷ 
ban y đức ở Anh, các nhà nghiên cứu phát hiện chỉ có 134 (30%) để cương mô 
tả cách tính đẩy đủ và người khác có thể lặp lại kết quả tính toán, 70% còn lại thì 
kết quả không tái lập được. Đó là một kết quả bất ngờ và đáng quan tâm vì đây 
là những công trình nghiên cứu có liên quan đến con người. 

Tính nghệ thuật trong việc xác định cỡ mẫu là cách chọn mức độ ảnh hưởng 
cho tính toán. Trong rất nhiều trường hợp, nhà nghiên cứu không biết được mức 
độ ảnh hưởng là bao nhiêu, không biết được độ nhạy hay độ chính xác của một xét 
nghiệm. Nhưng những thông số này lại rất cần cho việc tính toán cỡ mẫu! Do đó, 
nhà nghiên cứu phải vận dụng suy nghĩ để tìm một thông số cho tính toán. Một 
nghiên cứu phải cho ra kết quả có ích, do đó, thông số đó phải có ý nghĩa thực tế 
hay ý nghĩa lâm sàng. Cẩn phải phân biệt ý nghĩa thống kê và ý nghĩa lâm sàng. Khi 
một nghiên cứu có cỡ mẫu lớn, bất cứ một khác biệt nhỏ nào cũng có thể có ý nghĩa 
thống kê (P < 0.05), nhưng không có ý nghĩa lâm sàng. Ngược lại, một kết quả có 
thể có ý nghĩa lâm sàng nhưng không có ý nghĩa thống kê khi cỡ mẫu quá nhỏ. Do 
đó, nghệ thuật ở đây là phải chọn một thông số về ảnh hưởng vừa có ý nghĩa thống 
kê và có ý nghĩa lâm sàng. Như là một hướng dẫn chung, nếu mức độ ảnh hưởng 
(ES) khoảng 0.1 - 0.3 là "nhở? 0.3 - 0.5 là “trung bình? và > 0.5 được xem là "lớn". 
Việc chọn mức độ ảnh hưởng cho tính toán cỡ mẫu đòi hỏi nhà nghiên cứu phải 
suy nghĩ về vấn để mình quan tâm và phù hợp với tình hình thực tế. 

Tính toán cỡ mẫu phải được thực hiện trước khi triển khai nghiên cứu. 
Trong thực tế, có tình huống xảy ra khi kết quả nghiên cứu không có ý nghĩa 
thống kê, nhà nghiên cứu bèn tính toán power và số cỡ mẫu cần thiết để 
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phát hiện mức độ ảnh hưởng quan sát. Cách làm như thế có khi được gọi là 
post-hoc analysis oƒ power. Nhưng ước tính cỡ mẫu và tính toán power sau khi 
công trình nghiên cứu đã hoàn tất hay sau khi xem qua kết quả hoàn toàn không 
có giá trị khoa học và phi logic. Cẩn nhớ rằng power là xác suất mà một kiểm 
định thống kê bác bỏ giả thuyết vô hiệu khi giả thuyết vô hiệu sai; do đó, power 
chỉ có ý nghĩa khi giả thuyết vô hiệu sai. Nhưng vấn để là một kết quả không có 
ý nghĩa thống kê không nói cho chúng ta biết giả thuyết vô hiệu là đúng hay sai. 
Do đó, tính cỡ mẫu và power sau khi đã quan sát kết quả là hàm ý giả định rằng 
giả thuyết vô hiệu sai nhưng lại không phù hợp với dữ liệu thực tế. Cẩn phải 
tuyệt đối tránh tính toán cỡ mẫu và power sau khi quan sát một kết quả không 
có ý nghĩa thống kê. Khoảng tin cậy 95% cung cấp cho chúng ta nhiều thông tin 
hơn là một phân tích hậu định về power. 

Một số nhà nghiên cứu có thói quen tính toán cỡ mẫu sao cho ăn khớp với 
số đối tượng họ có thể tiếp cận được hay đã có sẵn. Chẳng hạn như nhà nghiên 
cứu đã có 30 bệnh nhân, và họ cố gắng điểu chỉnh các thông số trong công thức 
ước tính cỡ mẫu sao cho kết quả là 30. Việc làm này dẫn đến nhiều kết quả vô lí, 
chẳng hạn như sai số mẫu gần bằng với tham số chính như tỉ lệ hiện hành! Đây 
là một thói quen, nếu không muốn nói là một sự "lươn lẹo” và phản khoa học 
không thể chấp nhận trong văn hoá khoa học. Như để cập trên, việc ước tính cỡ 
mẫu phải được thực hiện trước khi triển khai nghiên cứu và phải được tiến hành 
một cách có đẩu tư suy nghĩ và nghiêm chỉnh. 

Xin nhấn mạnh một lần nữa là phương pháp ước tính cỡ mẫu phụ thuộc 
vào mô hình nghiên cứu, biến kết quả, sai sót trong kiểm định giả thuyết, và 
mức độ ảnh hưởng. Mỗi mô hình nghiên cứu với mỗi loại biến kết quả có một 
công thức ước tính cỡ mẫu đặc thù. Chẳng hạn như không thể dùng công thức 
cố định để ước tính cỡ mẫu cho nghiên cứu so sánh một biến liên tục giữa hai 
nhóm nghiên cứu. Tuy nhiên, trong thực tế ở Việt Nam, rất nhiều nhà nghiên 
cứu tính toán cỡ mẫu chỉ dựa vào công thức cho hầu hết các mô hình nghiên 
cứu! Việc áp dụng công thức tính toán một cách tuỳ tiện như thế là một sai lầm 
rất căn bản và khó chấp nhận được. Sai lầm này có khi nguy hiểm, vì cho ra kết 
quả sai, làm ảnh hưởng đến chất lượng nghiên cứu. 

Như có thể thấy qua các trường hợp vừa trình bày, phương pháp ước tính 
cỡ mẫu dựa trên một giả định rất đơn giản: cái gì nhỏ thì rất khó tìm (cần nhiều 
cỡ mẫu), và cái gì lớn thì đễ tìm (cẩn ít cỡ mẫu). Gắn kết với cỡ mẫu là khái niệm 
power (mà có nhiều người dịch là lực nghiên cứu, nhưng trong thực tế là độ nhạy 
của nghiên cứu). Độ nhạy của nghiên cứu là xác suất bác bỏ giả thuyết vô hiệu 
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x?“/ ⁄ `» 
Những sai sót và thiếu sót 
phổ biến trong phân tích dữ liệu 





y khoa, nhất là nghiên cứu lâm sàng và địch tể học. Thống kê đã được ứng 

dụng trong y học từ những năm trong thập niên 1930, nhưng thật ra từ 
thế kỉ 19 người ta cũng đã nghĩ đến việc sử dụng các thuật phân tích thống kê 
trong thử nghiệm lâm sảng. Mặc dù đã trải qua hơn 1 thế kỉ ứng dụng, nhưng 
cho đến ngày nay vẫn còn rất nhiều sai sót về phân tích thống kê trong các công 
trình nghiên cứu y học. Một số sai sót không ảnh hưởng gì đến kết luận của 
nghiên cứu, nhưng nhiều sai sót mang tính hệ thống thì có khi làm cho công 
trình nghiên cứu có một ý nghĩa hoàn toàn khác với kết luận của tác giả. 


P hân tích thống kê là một phần không thể thiếu được trong các nghiên cứu 


Để khắc phục tình trạng sai sót về phân tích thống kê trong nghiên cứu y 
học, nhiều nhóm trên thế giới đã xuất bản những “phác đổ? những hướng dẫn 
trong cách phân tích và trình bày kết quả phân tích đữ liệu. Đây là một nỗ lực 
trong thực hành y học thực chứng, bởi vì y học thực chứng dựa vào những công 
trình nghiên cứu có chất lượng và chứng cứ phải chính xác. Trong bối cảnh 
nghiên cứu y học ở Việt Nam, y học thực chứng vẫn còn trong giai đoạn đầu, và 
nhìn qua những bài báo khoa học rất đễ nhận ra nhiều sai sót về phân tích dữ 
liệu trong mỗi bài báo. Đó cũng là một trong những nguyên nhân dẫn đến chất 
lượng nghiên cứu y học ở Việt Nam không có phẩm chất cao. Chúng ta cần phải 
khắc phục tình trạng yếu kém này. 


Phân tích thống kê có thể chia thành hai lĩnh vực chính: phân tích mô tả 
và phân tích suy luận. Phân tích mô tả quan tâm đến cách mô tả đữ liệu từ một 
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mẫu hoặc từ một công trình nghiên cứu. Phân tích suy luận bao gồm các phương 
pháp phân tích cách ước tính, suy luận, kiểm định giả thuyết khoa học. Trong 
chương này, tôi sẽ trình bày những sai sót phổ biến nhất về phân tích mô tả và 
phân tích suy luận trong các nghiên cứu y học trên thế giới và Việt Nam, với hi 
vọng rằng những sai sót hoặc thiếu sót (sẽ gọi chung là «thiếu sót») này sẽ giảm 
đi trong tương lai, và chất lượng nghiên cứu khoa học sẽ được nâng cao. 


Thiếu sót 1: Không định nghĩa biến phân tích rõ ràng. 


Đặc tính của khoa học là cân, đo, đong, đếm. Nhà nghiên cứu cẩn phải cho. 
người đọc (và công chúng) biết những biến số họ đo lường là gì, và phải cung 
cấp định nghĩa của những biến đó sao cho người đọc có thể hiểu được. Chẳng 
hạn như khi nói đến mật độ xương (bone mineral density - BMD), nhà nghiên 
cứu phải định nghĩa BMD là gì, đo ở vị trí nào trong cơ thể, đơn vị đo lường là 
gì, và đo bằng phương pháp hay phương tiện gì. Hay như huyết áp, nhà nghiên 
cứu phải cung cấp định nghĩa ngưỡng giá trị nào là "cao huyết áp” ngưỡng nào 
là "bình thường” và dựa trên cách phân loại nào (điểu này đặc biệt quan trọng 
trong những trường hợp cách phân loại còn chưa thống nhất ở thời điểm hiện 
tại). Tương tự, khi để cập đến béo phì (obesity), nhà nghiên cứu phải định nghĩa 
thế nào là béo phì, và dùng chỉ số nào để định nghĩa. Chẳng hạn như BMI trên 
27.5 (ở người Á châu) hay trên 30 (ở người Âu châu) được xem là béo phì. 

Đối với các biến liên quan đến khái niệm hoặc hành vi (behavior) vấn để 
định nghĩa có thể khó hơn vì khó đo lường. Chẳng hạn như trầm cảm được định 
nghĩa bằng thang điểm Zung Depression Inventory (ZDI) trên 50, nhưng biến số 
này phản ảnh trầm cảm chính xác đến độ nào thì là một vấn để còn trong vòng 
tranh cãi. Trong một cuộc điểu tra qui mô ở Mĩ, một cá nhân được xem là “đang 
hút thuốc lá” là người hút thuốc lá trong vòng 30 ngày trước khi tham gia cuộc 
điểu tra. Mặc dù định nghĩa này không hiển nhiên như chúng ta mong muốn, 
nhưng đó là một định nghĩa mang tính “operational? và nhà nghiên cứu phải 
phát biểu, cho dù chúng ta có thể không đồng ý với định nghĩa đó. 


Thiếu sót 2: Không cung cấp độ đo lường cho từng biến số. 


Độ đo lường (level of measurement) là một thông tin quan trọng cho phân 
tích thống kê. Trong lí thuyết đo lường, người ta phân biệt ba loại biến số: định 
danh (nominal), định cấp độ (ordinal), và liên tục (continuous). Ở mức độ thấp 
nhất là những dữ liệu mang tính định danh, tức những biến bao gồm hai hay 
hơn hai loại (nam hay nữ), hoặc tên (đạo Phật, đạo Công giáo), phân loại nhưng 
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không có tính thứ tự cao thấp (như nghề nghiệp). Loại máu A, B, AB, hoặc O 
cũng được xem là đữ liệu định danh. 

Các dữ liệu định cấp bao gồm thể loại có thứ tự cao thấp và có thể xếp hạng, 
chẳng hạn như một cá nhân có thể là thấp, trung bình, hay cao. Chúng ta có thể 
không biết chính xác chiểu cao của bệnh nhân, nhưng chúng ta biết bệnh nhân 
đó thuộc nhóm cao, trung bình hay thấp. Các biến liên tục có giá trị chính xác 
hơn các biến định cấp và định danh. Những biến số như chiều cao (đo bằng cm), 
cân nặng (kg), huyết áp (mmHg), mật độ xương (g/cm)), v.v. được xem là những 
đữ liệu liên tục. Dữ liệu liên tục là những đữ liệu có độ chính xác cao nhất trong 
3 nhóm đo lường. 

Nhà nghiên cứu cấn phải nói rõ biến phân tích thuộc loại nào trong bài 
báo khoa học. Chẳng hạn như huyết áp của một bệnh nhân có thể chia thành 
hai nhóm (tăng hay không tăng), hoặc như là một biến phân cấp (huyết áp thấp 
(hypotensive), bình thường (normotensive), và tăng (hypertensive)), hoặc như 
là một biến liên tục (đơn vị là mmHg). Đây là vấn để quan trọng, bởi vì đặc tính 
của biến số quyết định phương pháp phân tích. Do đó, nếu nhà nghiên cứu 
không định nghĩa và không mô tả biến phân tích rõ ràng, thì người đọc sẽ không 
lĩnh hội được kết quả nghiên cứu có ý nghĩa gì. 


Thiếu sót 3: “Cắt” biến liên tục thành nhiều nhóm một cách tùy tiện. 
Thỉnh thoảng, để đơn giản hoá các phân tích thống kê, nhà nghiên cứu 
có thể chia các biến liên tục thành nhiều nhóm. Chẳng hạn như tỉ trọng cơ 
thể (body mass index hay BMI) có thể chia thành 4 nhóm: béo phì, quá cân, 
bình thường, và thiếu cân. Đó là cách phân nhóm có lí do khoa học và đã được 
minh chứng theo thời gian là khá hợp lí (đù còn nhiều tranh cãi). Do đó, một 
phân tích dựa trên cách phân nhóm có cơ sở khoa học như thế ít khi nào bị 
chất vấn. 
Nhưng có nhiều trường hợp nhà nghiên cứu chia nhóm một cách tùy tiện, 
hoàn toàn không theo một qui ước hay dựa trên một cơ sở khoa học nào cả. 
Chẳng hạn như có người chia độ tuổi thành nhiều nhóm theo 5 tuổi (0 - 4, 5 - 9, 
10 - 14, v.v.), lại có khi chia thành nhóm theo 10 tuổi (0 - 9, 10 - 19, 20 - 29, v.v.). 
'Tương tự, người ta cắt những biến số sinh hoá, thậm chí biến số kinh tế (như 
thu nhập) ra thành những nhóm độc lập nhau. Chẳng hạn như nếu chúng ta chia 
tuổi thành 4 nhóm như 0 - 9, 10 - 19, 20 - 29, tức là chúng ta sẽ có 3 nhóm. Hãy 
thử tưởng tượng một người có tuổi 2 và người tuổi 18, cách nhau đến 12 năm 
tuổi, nhưng khi phân tích trên nhóm thì chỉ có 1 và 2! Chúng ta mất thông tin. 
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Do đó, cách phân nhóm như thế thường dẫn đến những sai sót trong phân tích, 
mà lại bị phê bình là thiếu tính khoa học. 


Phân chia một biến liên tục thành một biến không liên tục qua phân nhóm 
như vừa để cập là một cách làm... phi khoa học. So với các biến định danh 
(nominal variable), thì biến liên tục (continuous variable) là biến có giá trị chính 
xác cao nhất. Vì độ chính xác cao, nên các biến liên tục cung cấp nhiều thông 
tin nhất. Ngược lại, khi cắt biến liên tục thành từng nhóm nhỏ cũng có nghĩa là 
giảm lượng thông tin của biến số, vì giảm độ chính xác của biến số. Khi biến số 
bị giảm lượng thông tin, thì kết quả phân tích trên các biến như thế cũng có thể 
dẫn đến sai lầm. 





Khi được hỏi tại sao chia thành từng nhóm nhỏ như thế, thì câu trả lời là để 
tính mức độ ảnh hưởng. Mức độ ảnh hưởng (effect size) ở đây là tỉ số odds, tỉ số 
nguy cơ (relative risk - RR). Tại sao nghĩ như thế? Tại vì họ nghĩ rằng không thể 
tính RR cho các biến liên tục. Nhưng rất tiếc rằng đó là do họ hiểu sai. Chúng ta 
vẫn có thể tính RR cho biến liên tục. Chẳng hạn như thay vì tính cho mỗi năm, 
chúng ta có thể tính cho mỗi 5 năm. Những ai học R có thể biết hàm sau đây 





gim(death ~ age, family=binomial, data=dd) 


là tính tỉ số odds tử vong cho mỗi năm tuổi. Nhưng nếu chúng ta muốn tính 
cho mỗi 5 năm tuổi, thì hàm sẽ là: 


glm(death ~ I(age/5), family=binomial, data=dd) 


Nói tóm lại, không nên cắt một biến số liên tục ra thành nhiều nhóm nhỏ. 
Đó có thể xem là một hình thức "tra tấn dữ liệu” (data torture), một 'bad practice" 
trong nghiên cứu khoa học. Nếu biến số liên tục có phân bố chuẩn hay gần chuẩn 
thì nên sử dụng giá trị gốc. Tuy nhiên, việc chia nhóm có thể chấp nhận được 
nếu phân bố có dạng multimodal (tức có nhiều đỉnh) hoặc cách phân nhóm có 
ý nghĩa thực tế. 





Thiếu sót 4: Không xác định rằng số liệu trong phân tích 

phương sai (ANOVA) và kiểm định t đáp ứng các giả định thống kê. 
Phân tích phương sai, hay một phiên bản đơn giản hơn là kiểm định t, 

dựa vào giả định rằng số liệu phải tuân theo luật phân phối chuẩn (normal 
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đistribution), độc lập với nhau (independence), và phương sai giữa các nhóm 
không khác nhau (homogeneity). Nhưng trong thực tế sinh học, nhiều biến số 
không đáp ứng những giả định trên. Nếu nhà nghiên cứu bất chấp các giả định 
và phân tích thì kết quả có thể không đúng, nếu không muốn nói là sai. Khi số 
liệu không tuân theo luật phân phối chuẩn hay không đáp ứng các giả định trên, 
nhà nghiên cứu cẩn phải hoán chuyển số liệu để đáp ứng các giả định chung 
trên trước khi phân tích. Nếu số liệu không thể hoán chuyển, nhà nghiên cứu có 
thể áp dụng các phương pháp phân tích phi tham số (non-parametric method) 
như kiểm định Wilcoxon rank-sum test hay sử dụng phương pháp tái chọn mẫu 
(bootstrap), thay vì dùng phương pháp phân tích phương sai. 


Thiếu sót 5: Không mô tả phương pháp dùng để phân tích 
sự khác biệt giữa hai nhóm trong phân tích phương sai. 


Phương pháp phân tích phương sai được sử dụng để so sánh >2 nhóm. 
Nếu có 3 nhóm, chúng ta có thể so sánh nhóm 1 với 2, 1 với 3 và 2 với 3. Phân 
tích phương sai thường cung cấp hai kết quả quan trọng: giá trị kiểm định F 
và trị số P. Trị số P cho nhà nghiên cứu biết có ít nhất hai nhóm (trong các 
nhóm được phân tích) khác nhau có ý nghĩa thống kê, nhưng không cho biết 
cụ thể những nhóm nào! Để biết nhóm nào thật sự khác biệt, nhà nghiên 
cứu cẩn phải tiến hành bước thứ 2 trong qui trình phân tích: đó là phân tích 
post - hoc - phân tích hậu kiểm. Có ít nhất là 5 phương pháp phân tích hậu 
kiểm, bao gốm FisherS least significance test, Tukey, Student-Neuman-Keuls, 
§cheffe, Duncan, Bonferroni, v.v. Những phương pháp này có khi cho ra kết 
quả khác nhau vì khác nhau về giả định. Do đó, trong báo báo kết quả phân 
tích phương sai, nhà nghiên cứu phải trình bày rõ ràng phương pháp nào đã 
được áp dụng trong việc phát hiện những sự khác biệt và giả định đằng sau 
phương pháp phân tích. 





Thiếu sót 6: Hiểu sai trị số P là xác suất của một giả thuyết khoa học. 

Một hiểu lầm rất phổ biến là trị số P là xác suất giả thuyết vô hiệu. Chẳng 
hạn như nhà khoa học phát hiện mối liên quan giữa hút thuốc lá và ung thư với 
trị số P = 0.04, họ diễn giải rằng xác suất không có mối liên quan là 4%. Suy ra, 
xác suất có mối liên quan giữa hút thuốc lá và ung thư phổi là 96%. Nhưng cách 
hiểu này sai. Trị số P không nói gì về xác suất của một giả thuyết khoa học. Trị số 
P chỉ giúp chúng ta bác bỏ giả thuyết vô hiệu, chứ không chứng minh giả thuyết 
nào cả. 
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Một hiểu lầm phổ biến khác cho rằng P là xác suất phát hiện sai. Ví dụ như. 
nhà khoa học tính toán hệ số tương quan, và có kết quả r = 0.25, với P = 0.01, 
họ hiểu rằng xác suất kết quả này sai là 1%. Suy ra, xác suất kết quả đúng là 99%. 
Nhưng cách hiểu này hoàn toàn sai, vì trị số P không cho chúng ta biết là kết quả 
nghiên cứu đúng hay sai. 


Thiếu sót 7: Trị số P là alpha (sai sót loại I). 


Khi thiết kế một nghiên cứu khoa học (nhất là nghiên cứu lâm sàng), nhà 
khoa học phải xác định ngưỡng alpha và beta của nghiên cứu. Nói nôm na, alpha 
là dương tính giả (tức là xác suất mà nghiên cứu cho ra kết quả dương tính nhưng 
trong thực tế chẳng có liên quan gì). Còn beta là âm tính giả (tức là xác suất mà 
nghiên cứu cho ra kết quả âm tính, nhưng trong thực tế thì có liên quan). Do đó, 
có nhiều nhà khoa học hiểu rằng trị số P chính là alpha, nhưng cách hiểu đó sai. 
Sai vì hiểu lầm khái niệm kiểm định giả thuyết (test of hypothesis). Trị số P là 
kết quả của kiểm định thống kê (test of signifcance), chứ không phải kiểm định 
giả thuyết. 





Thiết sót 8: Hiểu rằng trị số P càng thấp, mức độ ảnh hưởng càng cao. 


Đây là một hiểu lầm rất tai hại. Nhiều nhà nghiên cứu so sánh trị số P để 
đánh giá mức độ ảnh hưởng. Chẳng hạn như họ tìm trong y văn và thấy ảnh 
hưởng của thuốc statin trong một nghiên cứu có trị số P = 0.01, còn nghiên cứu 
của họ có trị số P = 0.001, họ suy luận rằng mức độ ảnh hưởng họ quan sát cao 
hơn mức độ ảnh hưởng báo cáo trong y văn. Nhưng cách hiểu này sai, vì trị số P 
không phản ảnh mức độ ảnh hưởng so sánh giữa hai hay nhiều trị số P là không 
có ý nghĩa gì cả. 





Thiếu sót 9: Kiểm định nhiều giả thuyết nhưng không hiệu chỉnh trị số P. 


Phần lớn những nghiên cứu thực nghiệm báo cáo nhiều trị số P, vì nhà 
nghiên cứu kiểm định nhiều giả thuyết hay làm nhiều so sánh trong cùng một 
nghiên cứu, có khi cùng một dữ liệu. Chẳng hạn như nghiên cứu xác định hiệu 
quả của thuốc chống loãng xương có thể so sánh mật độ xương và hàng loạt 
marker chu chuyển xương giữa hai nhóm chứng và nhóm điểu trị. Trong tình 
huống nhiều so sánh, xác suất kết quả đương tính giả (false positive) xảy ra rất 
cao. Nói theo ngôn ngữ thống kê, sai sót loại I (type I error) sẽ tăng nhanh với số 
lần kiểm định giả thuyết. Chẳng hạn như nếu chúng ta so sánh 15 biến giữa hai 
nhóm, và mỗi lần so sánh chúng ta chấp nhận sai sót loại I là 5% (a = 0.05), thì 
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trong 15 so sánh đó, xác suất có ít nhất một so sánh sẽ có ý nghĩa thống kê (trị số 
P dưới 0.05) là 1 - (1 - 0.95)'°= 54%. Nói cách khác, sai sót loại I bây giờ không 
phải là 5% nữa, mà là 54%! Do đó, nếu không điều chỉnh cho kiểm định nhiều 
giả thuyết (tiếng Anh là multiple comparison adjustment) thì chúng ta có thể đi 
đến kết luận sai, tức có thể phát hiện một sự khác biệt có ý nghĩa thống kê hoàn 
toàn đo ngẫu nhiên chứ không phải do can thiệp. 

Kiểm định nhiều giả thuyết hay nhiều so sánh xảy ra khi nhà nghiên cứu: 

»_ Xác lập sự tương đương giữa nhóm bằng cách so sánh các biến số ban 
đầu (baseline variables) giữa hai nhóm trong một nghiên cứu lâm sàng 
đối chứng ngẫu nhiên, và họ hi vọng là sẽ không tìm ra một khác biệt nào. 
(vì hai nhóm được chia nhóm ngẫu nhiên). 

» So sánh giữa nhiều nhóm (pair-wise comparisons). Có nghiên cứu có 
nhiều hơn hai nhóm (chẳng hạn như 4 nhóm, A, B, C và D) và có khi nhà 
nghiên cứu muốn so sánh tất cả các nhóm A với B, A với €, A với D, B 
với C, v.v. Nói chung, số lần so sánh có thể lên đến k(k - 1)/2, và kết quả 
dương tính giả hay tăng sai sót loại I lên rất cao khi có nhiều k và nhiều 
biến số so sánh. 

«_ Kiểm định nhiều giả thuyết dựa trên nhiều biến số trong cùng một nghiên 
cứu. 

«_ Phân tích thứ phát (secondary analysis) về mối tương quan giữa các biến 
trong nghiên cứu, dù những phân tích này không nằm trong dự tính lúc 
ban đầu. 


»_ Chia nhóm và so sánh một cách tuỳ tiện. Trong nhiều trường hợp, nhà 
nghiên cứu có thể chia nhóm thành nam và nữ, độ tuổi thì có thể là 0 - 4, 
5-9, 10 - 14, 15 - 19 nhưng cũng có thể 0 - 9, 10 - 19, và thậm chí 0 - 7, 
8 - 12, 13 - 19, y.v. Khi có một biến liên tục thì có hàng vạn lần để chia 
biến đó thành những nhóm riêng lẻ, và trong trường hợp so sánh giữa 
các nhóm riêng lẻ như thế rất đễ dẫn đến kết quả sai. 

» Phân tích lâm thời (interim analysis). Có nhiều nghiên cứu tuyển đối 
tượng theo thời gian, và cứ mỗi lần có thêm đối tượng, nhà nghiên cứu 
làm kiểm định giả thuyết thống kê. Do đó, những nghiên cứu theo thời 
gian, có khi nhà nghiên cứu phân tích rất nhiều lần, và trong số đó có 
những lần kết quả có ý nghĩa thống kê nhưng hoàn toàn do yếu tố ngẫu 
nhiên. Trong thực tế phân tích lâm thời thường được sử dụng khi nghiên 
cứu thử nghiệm lâm sàng ngẫu nhiên có nhóm chứng đã thu nhận được 
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một số lượng đối tượng nghiên cứu nhất định (ví dụ 50% hay 75% cỡ 
mẫu dự tính). Mục tiêu là để có thể ngưng nghiên cứu sớm nếu đã có 
đủ bằng chứng về hiệu quả hay tác hại của biện pháp can thiệp (với tiêu 
chuẩn (stopping rules) được xác định trước trong để cương nghiên cứu). 
Trong trường hợp này, giá trị P của phân tích cuối cùng khi có đủ số liệu 
phải được hiệu chỉnh phù hợp nhằm tránh kết quả dương tính giả. 

» So sánh giữa các nhóm cho nhiều thời điểm. Cũng có nghiên cứu mà 
trong đó nhà nghiên cứu theo đõi bệnh nhân ở nhiều thời điểm, nhà 
nghiên cứu kiểm định giả thuyết (hay so sánh) trong từng thời điểm. Đây 
cũng là một trường hợp miple comparison thường hay thấy và những 
so sánh từng thời điểm như thế cũng làm tăng sai sót loại I. 





Điểu chỉnh trị số P trong trường hợp kiểm định nhiều giả thuyết thường. 
là một yêu cầu, những cũng có khi không cần thiết. Do đó, nhà nghiên cứu cần 
phải biết lúc nào thì điểu chỉnh và khi nào thì không. 

Nếu một kiểm định ở độ ý nghĩa thống kê là a, xác suất sai sót loại I (tức xác 
suất dương tính giả) được gọi là comparisonwise error rate (CER) a, có khi cũng 
gọi là individual error rate. Do đó, xác suất không bác bỏ giả thuyết là 1 - a. Nếu 
kiểm định k giả thuyết, xác suất không bác bỏ tất cả k giả thuyết vô hiệu nếu tất 
cả đều đúng là (1 - a)*. Do đó, xác suất bác bỏ ít nhất là 1 giả thuyết vô hiệu được 
gọi là experimentwise error rate (EER) =1 ~ (1 ~ a)*. Xác suất này cũng được gọi 
là global level hay familywise error rate, vì k tests là một thí nghiệm. Nếu tất cả k 
giả thuyết độc lập, thì sẽ có khoảng ka kết quả có ý nghĩa thống kê nhưng trong 
thực tế là không có ý nghĩa thống kê. Nếu k giả thuyết không độc lập thì không 
có công thức đơn giản để ước tính số kết quả dương tính giả. 

Nếu nhà nghiên cứu muốn kiểm soát CER thì không cẩn phải điểu chỉnh 
trị số P. Ngoài ra, trong trường hợp phân tích khai thác (exploratory analysis) 
để tìm hiểu các mối liên hệ giữa các biến cũng không cẩn phải điểu chỉnh cho 
trị số P. Tuy nhiên, nếu nhà nghiên cứu muốn kiểm soát EER thì cần phải điểu 
chỉnh trị số P. 

(Tham khảo: Bender R, Lange S. Adjusting for multiple testing - when and 
how? J Clin Epidemiol 2001;54:343-349). 


Thiếu sót 10: Chỉ báo cáo kết quả qua trị số P. 


Một bài báo y khoa viết như sau: “The effect oƒ the drug on lowering điastolic 
blood pressure was statistically significant (P < 0.05).” Ở đây, trị số P có thể là 
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0.049; tức có ý nghĩa thống kê (vì thấp hơn 0.05), nhưng rất gần với 0.05 mà có 
thể diễn giải tương tự như một trị số P bằng [chẳng hạn như] 0.051, tức không, 
có ý nghĩa thống kê! Ngoài ra, chúng ta không biết ảnh hưởng của thuốc trong 
việc hạ huyết áp là bao nhiêu, tức là chúng ta không biết ảnh hưởng của thuốc có 
ý nghĩa lâm sàng hay không. 

Một nghiên cứu khác viết “The mean diastolic blood pressure oƒ the treatment 
roup dropped from 110 to 92 mmHg (P = 0.02)” Cách trình bày này tốt hơn cách 
trình bày trên, nhưng vẫn chưa đẩy đủ. Giá trị trước và sau điểu trị được báo 
cáo rõ ràng, nhưng không nói đến độ khác biệt. Thật ra, thuốc giảm huyết áp 
18 mmHg và có ý nghĩa thống kê (P = 0.02), nhưng tác giả không cho chúng ta 
biết khoảng tin cậy 95% của độ khác biệt trước và sau điểu trị. 

Một cách viết tốt hơn nữa là “The drug lowered diastolic blood pressure by a 
mean oƒ 18 mg, from 110 to 92 mừHg (95% Cl = 2 to 34 mmHg; P= 0.02)." Ở 
đây, tác giả cho chúng ta biết ba thông tin quan trọng: huyết áp trước và sau điều 
trị; mức độ ảnh hưởng và khoảng tin cậy 95%; và trị số P. Khoảng tin cậy 95%. 
có thể diễn giải nôm na rằng nếu thuốc được thử nghiệm trên 100 mẫu tương 
tự như nghiên cứu đang báo cáo thì tính trung bình huyết áp giảm từ 2 đến 
34 mmHg trong 95 mẫu. Chúng ta biết rằng khi huyết áp giảm chỉ 2 mmHg thì 
chẳng có ý nghĩa lâm sàng, nhưng giảm đến 34 mmHg thì quả có ý nghĩa lâm 
sàng. Do đó, mặc dù huyết áp giảm trung bình là có ý nghĩa thống kê, mức độ 
khác biệt có thể không phải lúc nào cũng có ý nghĩa lâm sàng; nói cách khác, kết 
quả nghiên cứu gần như khó kết luận. Để có kết luận dứt khoát, có lẽ chúng ta 
cần thêm bệnh nhân sao cho tất cả khoảng tin cậy 95% đều có ý nghĩa lâm sàng. 


Thiếu sót 11: Diễn giải kết quả không có ý nghĩa thống kê 
như là một nghiên cứu negative. 

Giả sử một nhà nghiên cứu so sánh huyết áp giữa hai nhóm và kết quả 
không có ý nghĩa thống kê (statistically insignificant, P > 0.05). Nhà nghiên cứu 
phải quyết định sự không khác biệt đó có nghĩa là hai nhóm giống nhau (tương 
đương nhau) hay số liệu chưa đầy đủ để đi đến một kết luận chắc chắn hơn. Cần 
nói rằng một kết quả không có ý nghĩa thống kê không có nghĩa là hai nhóm 
giống nhau, mà chỉ có nghĩa là không thể bác bỏ giả thuyết vô hiệu, hay nghiên 
cứu này chưa đủ khả năng để bác bỏ giả thuyết vô hiệu. Giả thuyết vô hiệu (null 
hypothesis) là giả thuyết hai nhóm bằng nhau. 

Nhiều nghiên cứu báo cáo kết quả không có ý nghĩa thống kê thường có 
power thấp, và do đó, không thể cung cấp câu trả lời đứt khoát. Nhà nghiên cứu 
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có thể không "chứng minh” hai nhóm khác nhau, nhưng nhà nghiên cứu cũng 
không thể bác bỏ giả thuyết rằng hai nhóm có thể khác nhau. Người ta có câu 
Absence oƒ prooƒ is not prooƒ oƒ absence hay Absence oƒ evidence is not evidence oƒ 
absence (không có bằng chứng không có nghĩa là bằng chứng không có). Những 
nghiên cứu có power đầy đủ, một kết quả không có ý nghĩa thống kê có thể xem 
là một kết quả âm tính - negative (tức hai nhóm thật sự không khác nhau). Để 
«chứng minh» hai nhóm tương tự nhau thực tế cần phải tiến hành nghiên cứu 
tương đương (noninferior/equivalent) trong đó ngưỡng hiệu quả để đánh giá là 
tương đương phải được xác định ngay từ đầu. 


Thiếu sót 12: Lẫn lộn giữa ý nghĩa thống kê (statistical significance) 
và ý nghĩa lâm sàng / ý nghĩa thực tế (clinical significance / practical 
significance). 

Như để cập ở đây, nhiều nhà nghiên cứu diễn giải một kết quả có ý nghĩa 
thống kê (P < 0.05) như là khẳng định có mối liên hệ sinh học hay có ý nghĩa lâm 
sàng. Thật ra, trị số P không có giá trị sinh học và cũng không thể điển giải như 
là có ý nghĩa sinh học hay ý nghĩa lâm sàng. Trong lâm sàng và sinh học, mức độ 
ảnh hưởng (effect size), mức độ khác biệt giữa hai hay nhiều nhóm mới là điều 
quan trọng. Có ý nghĩa thống kê là một điểu kiện cần, nhưng chưa đủ để kết luận 
mối liên hệ hay ảnh hưởng là có thật. 


Thiếu sót 13: Báo cáo trị số P không chính xác. 


Có khá nhiều bài báo trình bày kết quả phân tích kèm theo trị số P được viết 
theo kiểu như *P < 0.053 *P < 0.017 hoặc °NS” Có lẽ “NS” ở đây có nghĩa là "not 
signifñcant” hay “non-signifcance” tức không có ý nghĩa thống kê. Tất cả những 
cách báo cáo này là sai. Ngày xưa, vì không có phương tiện tính toán như bây 
giờ, nên người ta "lười biếng” viết như thế. 





Còn ngày nay, chúng ta phải viết trị số P chính xác hơn. Thay vì viết P < 0.05, 
phải viết là P = 0.01. Nên nhớ mẫu tự P nên viết nghiêng. Ngoài ra, chỉ cần viết 
chính xác đến 3 số lẻ là đủ (ví dụ như P = 0.016 hoặc P < 0.001), chứ không cần 
viết quá rườm rà (như P = 0.0000012). 


Thiếu sót 14: Khoảng tin cậy 95% là xác suất của kết quả. 
Đây cũng là một hiểu lầm rất phổ biến trong khoa học. Tiêu biểu cho cách hiểu 


này là nhà nghiên cứu phân tích đữ liệu và có kết quả thuốc bisphosphonate giảm 
nguy cơ tử vong với nguy cơ tương đối 0.75, khoảng tin cậy 95% là từ 0.35 đến 0.97; 
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nhà nghiên cứu diễn giải rằng thuốc giảm nguy cơ tử vong 25%, và xác suất 95% là 
mức độ giảm dao động từ 3% đến 65%. Nhưng về mặt lí thuyết cách hiểu này sai. 
Khoảng tin cậy 95% không phải là xác suất 95%. Để tính được xác suất 95% đó (tức 
là xác suất dao động của giá trị thật), phải dùng phương pháp Bayes. 


Thiếu sót 15: Dùng trung bình và độ lệch chuẩn (SD) 
để mô tả một biến liên tục không tuân theo luật phân phối chuẩn. 

Không như các biến định danh và định cấp vốn có thể mô tả bằng tần số 
(frequency) hoặc tỉ lệ (proportion) cho mỗi nhóm, các biến số liên tục có thể mô 
tả bằng một biểu đồ phân phối. Đối với các biến tuân theo luật phân phối chuẩn 
(normal distribution), có hai thông số chính là số trung bình và độ lệch chuẩn. 
Theo định nghĩa của luật phân phối chuẩn, khoảng 67% các giá trị nằm trong 
khoảng +1 SD của số trung bình; khoảng 95% giá trị nằm trong khoảng + 2 SD. 

Tuy nhiên, nếu một biến không tuân theo luật phân phối chuẩn, thì số 
trung bình và độ lệch chuẩn sẽ không có ý nghĩa gì đáng kể. Đối với các biến 
không tuân theo luật phân phối chuẩn, các suy luận về 67% và 95% không còn 
đúng nữa. Trong trường hợp này, chúng ta nên dùng số trung vị (median) và số 
interquartile range để mô tả dữ liệu. 

Phần lớn số liệu lâm sàng và sinh hóa không tuân theo luật phân phối chuẩn. 
Do đó, số trung vị và interquartile range nên được sử dụng thường xuyên hơn. 
Một cách tính nhẩm đáng tin cậy là nếu SD cao hơn phân nửa số trung bình (và 
số âm là số không khả dĩ về mặt sinh học) thì đữ liệu có lẽ không tuân theo luật 
phân phối chuẩn. 


Thiếu sót 16: Dùng số trung bình và sai số chuẩn 
(standard error - SE) như là các chỉ số thống kê mô tả. 


Số trung bình và độ lệch chuẩn (SD) là những chỉ số thống kê mô tả một 
mẫu nghiên cứu (study sample) với điểu kiện biến số tuân theo luật phân phối 
chuẩn. Sai số chuẩn (standard error hay SE) là một chỉ số đo lường độ chính xác 
(precision) của một đặc điểm quần thể (population). Xin nhắc lại, SD áp dụng 
cho một mẫu nghiên cứu, SE áp dụng cho đặc điểm của một quần thể. SD phản 
ảnh độ đao động hay khác biệt giữa các cá nhân trong một mẫu nghiên cứu, còn 
SE phản ảnh độ dao động về một chỉ số như số trung bình giữa các mẫu tưởng 
tượng (vâng! tưởng tượng). 

SE có thể ước tính từ SD bằng cách lấy SD chia cho căn số bậc hai của số cỡ. 
mẫu. Do đó, SE lúc nào cũng thấp hơn SD. Nhiều nhà nghiên cứu không hiểu ý 
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nghĩa của SE nên dùng nó như là một đo lường thay cho SD, và làm cho biến số 
có độ dao động thấp hơn so với thực tế. Một số nhà nghiên cứu sai lầm vì không 
hiểu (tức sai lầm có thể thông cảm), nhưng có những nhà nghiên cứu cao bồi 
cố tình lửa gạt người đọc bằng cách dùng SE thay cho SD và không nói rõ. Nói 
chung, nên dùng SD (chứ không phải SE) để mô tả một biến số. 


Thiếu sót 17: Dùng “mean + SD” không thích hợp. 


Để mô tả một đại lượng liên tục, chúng ta hay dùng số trung bình (mean) 
và độ lệch chuẩn (standard deviation hay viết tắt là SD). Nhưng hai chỉ số này 
chỉ thích hợp cho các biến tuân theo luật phân bố chuẩn. Khi biến số không tuân 
theo luật phân bố chuẩn thì cách báo cáo mean + SD được xem là một sai sót. 


Ví dụ như có báo cáo viết như sau: «The mean + $D oƒ testosferone was 0.92 
+ 0.65 nmol/L* 


Có hai cái sai sót trong câu trên. Sai sót thứ nhất là biến số không tuân theo 
luật phân bố chuẩn, vì SD gần bằng với số trung bình. Chẳng lẽ dựa vào báo cáo. 
trên, giá trị của testosterone có thể thấp đến -0.38 nmol/L? Vô lí. Cái sai thứ hai 
là không nên dùng dấu + ở đây. Cách dùng đúng là dấu () chứ không phải +. 

Đối với biến không tuân theo luật phân bố chuẩn, cách mô tả thích hợp là 
trung vị (median) và bách phân vị 25% đến 75%. Ví dụ: “The median of total 
testosterone was 0.76 nmol/L, with interquartile range being from 0.15 to 1.12 
nmol/L* 


Thiếu sót 18: Dùng dấu nối khoảng tin cậy 95% không đúng qui ước. 


Khoảng tin cậy 95% (KTC95%) có phần dưới và phần trên. Rất nhiều bài 
báo y học báo cáo hai phần này bằng cách dùng các dấu như gạch nối "- dấu 
phẩy “3 thậm chí dấu chấm phẩy *;* Nhưng tất cả cách dùng đó đều không đúng 
qui ước. Dùng dấu “-” thường đễ gây hiểu lầm và nhập nhằng với dấu trừ. Dùng 
đấu phẩy thì có thể bị hiểu lầm số thập phân. Dùng dấu chấm phẩy thì sai hoàn 


toàn, 


Cách dùng đúng theo qui ước là chữ “to” Một ví dụ tiêu biểu là viết như sau: 
“relative risk, 1.91; 95% confidence interval [CI], 1.75 to 2.09)” Chú ý dấu phẩy 
là viết sau relative risk, odds ratio, hazard ratio. Ngoài ra, chú ý trong cách viết 
chuẩn đó, dấu chấm phẩy là để thêm khoảng tin cậy 95%. Đây là cách viết chuẩn 
của Tập san New England Journal oƒ Medicine. 
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Thiếu sót 19: Báo cáo các chỉ số thống kê hơn 2 số lẻ. 

Thỉnh thoảng đọc báo cáo tôi thấy các đồng nghiệp hay trình bày những 
chỉ số như odds ratio (OR) và relative risk (RR) quá chính xác. Ví dụ như có 
báo cáo như sau: “BNP điference: OR = 0.998 (0.997 - 0.999)” Đây là một cách 
trình bày về độ chính xác... không cẩn thiết. Thật ra, kết quả của ví dụ này có vẻ 
có vấn để. Thường, chỉ cần hai số lẻ là đủ, như “OR, 0.76; 95% CI, 0.56 to 0.89” 
là đúng qui ước. 


Thiếu sót 20: Chọn biến tiên lượng bằng phương pháp “stepwise” 
hoặc phân tích đơn biến có giá trị P < 0.05. 

Một bài báo khoa học trên một tập san y học viết: "Các biển có liên quan 
với tử vong trong phân tích đơn biến với mức ý nghĩa p < 0.05 sẽ được đưa vào 
phân tích hồi qui đa biến logistic”. Nói cách khác, các tác giả tiến hành phân tích 
hai bước: 





« Bước 1, phân tích từng biến một và lưu ý các biến có ý nghĩa thống kê 
(tức p < 0.05); 

+ Bước 2, cho tất cả các biến có ý nghĩa thống kê trong giai đoạn 1 vào một 

mô hình đa biến. 

Đây là một sai lầm rất “vô tư” và khá phổ biến trong y văn và khoa học. 
'Thậm chí, theo kinh nghiệm của người viết bài này, các nhà thống kê chuyên 
nghiệp cũng sai! Sai lầm này không hẳn là do tác giả cố ý, nhưng do hiểu lầm 
(hay chưa thông hiểu) cơ chế của các mô hình thống kê. 

Vấn để chính của cách chọn mô hình theo hai giai đoạn trên là khi phân 
tích từng biến một (giai đoạn 1), mô hình hồi qui logistic không xem xét đến ảnh 
hưởng của các biến khác cùng một lúc. Chẳng hạn như nếu biến x, và x, có tương 
quan với nhau, thì phân tích giai đoạn 1 có thể chọn cả hai biến, nhưng trong mô 
hình đa biến (giai đoạn 2), có thể chỉ có x, có ý nghĩa thống kê, còn x, thì không 
(hay ngược lại), bởi vì thông tin của biến này đã hàm chứa trong thông tin của 
biến kia (do hai biến có liên quan nhau). 

Một vấn đế khác, tỉnh vi hơn và “tế nhị” hơn, là ảnh hưởng của một biến 
trung gian, rất khó hay không thể kiểm soát trong giai đoạn 1. Trong trường hợp 
này, có thể hai biến x, và x, (chẳng hạn) trong thực tế đều có ảnh hưởng đến Y, 
nhưng ảnh hưởng này chỉ tổn tại khi chúng xuất hiện bên nhau (cộng hưởng); 
do đó, khi phân tích riêng lẻ, chúng ta không phát hiện được ảnh hưởng của 
chúng, và do đó phân tích đơn giản trong giai đoạn 1 có thể bỏ qua cả hai biến! 
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Hiện nay, các phần mềm thống kê có sẵn một số thuật toán để phát hiện các 
biến độc lập cho mô hình đa biến, như thuật toán stepwise, backward, và forward. 
Nhưng ngay cả các thuật toán này, nhất là thuật toán stepwise và forward, vẫn 
có nhiều khiếm khuyết và cho ra những kết quả "dương tính giả”? tức là những 
biến chẳng có liên quan gì đến biến phụ thuộc. Rất nhiều người không hiểu các 
thuật toán này nên vẫn áp dụng chúng một cách tùy tiện và hệ quả là có rất nhiều 
nghiên cứu với những kết quả sai trong khoa học. 

Xây dựng một mô hình đa biến là một khoa học, nhưng cũng là một nghệ 
thuật. Tính khoa học liên quan đến các tiêu chuẩn định lượng và thuật toán 
thích hợp. Tính nghệ thuật liên quan đến những yếu tố có thể nói là chủ quan, 
đòi hỏi nhà nghiên cứu phải vận dụng kiến thức chuyên ngành để đi đến một 
mô hình có ý nghĩa lâm sàng. Một mô hình đa biến nếu chỉ thỏa mãn các tiêu 
chuẩn khoa học vẫn chưa thể là một mô hình có ích. Một mô hình có ý nghĩa 
lâm sàng nhưng không đáp ứng các tiêu chuẩn khoa học không thể là một mô 
hình có độ tin cậy cao. Do đó, phân tích đa biến, dù là mô hình logistic hay hồi 
qui tuyến tính, là một phương pháp phức tạp, đòi hỏi nhiều thời gian để suy 
nghĩ và tính toán. Không thể và không nên để cho máy tính suy nghĩ dùm cho. 
chúng ta. 


Huyền thoại con số 30. 

Một trong những “huyển thoại” khá phổ biến là nghiên cứu phải có cỡ mẫu 
trên 20 hay trên 30 mới có ý nghĩa vì với cỡ mẫu đó thì mới đạt yêu cầu của phân 
bố chuẩn. Thật ra, đây là một hiểu lầm tai hại! Phải khẳng định rằng không phải 
cứ cỡ mẫu 30 trở lên thì kết quả mới có ý nghĩa. Cỡ mẫu, như chúng ta đã xem 
qua trong Chương 18, tùy thuộc vào mô hình nghiên cứu, mức độ ảnh hưởng, 
độ dao động, và thể loại biến số. Có nghiên cứu chỉ cần cỡ mẫu dưới 20, nhưng 
cũng có nghiên cứu cần hơn 2000 đối tượng. Không có con số cố định tối thiểu 
và tối đa. 

Tuy nhiên, con số này xuất phát từ một sự hiểu lầm, hay hiểu chưa đúng về 
phân bố thống kê và cỡ mẫu. Một số sách giáo khoa thường có một phát biểu 
chung chung về số cỡ mẫu “lớn” và “nhở” Chẳng hạn như cuốn Probability and 
§fatistieal Inference của Hogg và Tanis có viết rằng cỡ mẫu đưới 25 hay dưới 30 
được xem là “nhở; và trên con số đó là “lớn: Nhưng ngưỡng nhỏ/lớn này không 
phải là cỡ mẫu cho nghiên cứu khoa học, mà là ngưỡng để tính xấp xỉ giữa phân 
bố chuẩn (normal distribution) và phân bố t (t đistribution). Chúng ta biết rằng 
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phân bố t là xấp xỉ phân bố chuẩn. Khi cỡ mẫu lớn, phân bố t và phân bố chuẩn 
gần như giống nhau. Ở đây, "lớn" có nghĩa là trên 30. Con số này, do đó, chẳng 
liên quan gì đến số cỡ mẫu cho nghiên cứu khoa học. 

Có thể một hiểu lầm khác là liên quan đến định lí giới hạn trung tâm (central 
limit theorem - CLT). Đại khái, CUT phát biểu rằng bất cứ chỉ số thống kê nào 
(như trung bình, phương sai, trung vị) đều tuân theo luật phân bố chuẩn hay gần 
với phân bố chuẩn nếu số cỡ mẫu đủ. “Đủ” ở đây thường được hiểu là trên 30. 
Cần nhấn mạnh rằng đây là một xấp xỉ về phân bố của chỉ số thống kê (statistic) 
như trung bình, trung vị, tỉ lệ, độ lệch chuẩn, v.v. chứ chẳng liên quan gì đến cỡ 
mẫu nghiên cứu. 


.+.* 


Dĩ nhiên, những thiếu sót trên đây chưa kể đến những sai sót trong việc 
ứng dụng sai phương pháp, hoặc ứng dụng phương pháp đúng nhưng sai giả 
định. Ngoài ra, còn có nhiều thiếu sót do kiến thức chưa được cập nhật. Trong 
thời gian khoảng 20 năm qua đã có khá nhiều tiến bộ đáng kể trong khoa học 
thống kê. Những tiến bộ này bao gồm, nhưng không giới hạn trong, phương 
pháp tái chọn mẫu bootstrap, mô hình hỗn hợp mixed effects hay generalized 
6stimating equation (GEE), phương pháp xử lí đữ liệu trống (missing values). 
Ngoài ra, phát triển về máy tính đã giúp phục hồi các phương pháp trong trường 
phái Bayes. Tất cả những phương pháp “mới” này giúp cho nhà khoa học rất 
rất nhiều và rất quan trọng. Không biết đến hay không dùng các phương pháp 
này có khi dẫn đến bỏ sót những khám phá quan trọng. Chẳng hạn như nhiều 
người được đạy rằng khi dữ liệu không tuân theo luật phân bố chuẩn hay vi 
phạm giả định thì phải dùng phương pháp phi tham số. Nhưng phương pháp 
phi tham số chỉ cho ra trị số P, mà chúng ta biết trị số P có rất nhiều vấn đề. 
Thay vì dùng phương pháp phi tham số, nhà khoa học có trình độ và hiểu biết 
sẽ dùng phương pháp bootstrap, vừa "lịch lãm” vừa cung cấp nhiều kết quả thú 
vị. Một sai sót phổ biến khác là dùng stepwise regression để chọn yếu tố quan 
trọng. Có lẽ 95% các nhà khoa học đểu dùng phương pháp stepwise, nhưng họ 
không biết rằng đó là một phương pháp rất đở, và cho ra nhiều sai sót (kết quả. 
dương tính giả). Biết bao nhiêu “khám phẩ” sai trong khoa học có nguồn gốc từ 
phương pháp stepwise. 
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Thuật ngữ thống kê căn bản 








phân tích dữ liệu. Để liệt kê đẩy đủ thuật ngữ thống kê học cần phải 

có một cuốn từ điển (và trong thực tế đã có vài cuốn từ điển như 
thế). Danh sách thuật ngữ dưới đây được tuyển chọn từ hai nguồn chính là 
Cambridge Dictionary oƒ Statistics của B. Everitt và A. Skrondal, và Dictionary 
9ƒ Epidemiology của Miquel Porta, nhưng phần diễn giải dựa trên kinh nghiệm 
thực tế của tôi. Tôi biết rằng danh sách này chưa đầy đủ, nhưng sẽ cung cấp một 
số kiến thức căn bản cùng các mã R có thể dùng để tham khảo cho phân tích 
đữ liệu. 


Action research (nghiên cứu hành động): một thể loại khảo sát mà nhà nghiên 
cứu thẩm định, đánh giá thành quả các chiến lược và thực thi của họ. Phần 
lớn những nghiên cứu hành động mang tính mô tả. 


CC sau cùng này sẽ giải thích một số thuật ngữ quan trọng trong 


Accuracy (chính xác): xu hướng các giá trị quan sắt co cụm chung quanh giá trị 
thật. Xem reliability, precision. 

Aggregated data (dữ liệu tóm tắt): những đữ liệu được tóm tắt hay làm đơn giản 
từ các thành tố. Ví dụ: một nghiên cứu có 5 câu hỏi có thể tóm tắt bằng 1 chỉ 
số, và chỉ số này có thể là tổng số điểm của 5 câu hỏi. 


Akaike Information Criterion (AIC, Tiêu chuẩn thông tin Akaike): một chỉ số 
thống kê do Hirotsugu Akaike để xướng dùng để so sánh hai hay nhiều mô 
hình cho một đữ liệu, sau khi đã hiệu chỉnh cho số tham số trong mô hình. 
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Mô hình với giá trị AIC thấp nhất là mô hình được xem là 'tối ưu: Công 
thức tính là AIC = -2(ML) + 2p; trong đó ML là giá trị maximum likelihood 
và p là số tham số trong mô hình. Xem Bayesian inƒormation criterion. 

Algorithm (thuật toán): tập hợp một số qui luật và công thức được áp dụng theo. 
từng bước một để giải quyết một vấn để. Ví dụ: thuật toán stepwise để tìm mô. 
hình tối ưu trong mô hình hồi qui tuyến tính. 

Alpha level: Xem Type I error. 

Analysis oƒ variance (ANOVA - phân tích phương sai): một phương pháp phân 
tích thống kê có mục đích chính là kiểm định sự khác biệt giữa nhiều nhóm. 
Biến phân tích phải là biến liên tục. Phân tích phương sai cho ra kết quả như 
trị số E, vốn là bình phương của trị số t. 


Hàm R: aov(x ~ group) 


Analysis oƒ covariance (ANCOVA - phân tích hiệp biến): một phương pháp 
phân tích thống kê có mục đích chính là kiểm định sự khác biệt giữa 
nhiều nhóm sau khi điểu chỉnh cho biến nhiễu. Biến phân tích phải là 
biến liên tục. 


Hàm R: lm(x ~ group). 


Association (liên quan): trong thống kê học, association có thể hiểu là mối liên 
quan, giống như correlation là tương quan. 

Assumption (giả định): điều kiện cẩn phải đáp ứng để ứng dụng một mô hình 
phân tích. 

Asymmetry (bất đối xứng): thuật ngữ dùng để mô tả một phân bố không cân 
đối. 

Attitude scale (thang điểm thái độ): một bộ câu hỏi nhằm thu thập thông tin 
liên quan đến thái độ và niểm tin của đối tượng nghiên cứu. 

Bar chart (biểu đồ thanh): một dạng biểu đồ thường được dùng để so sánh giữa 
nhiều nhóm. Hàm R cho biểu đồ thanh là barplot. 
x=465; y=840; z=900 
barplot (cbind (x,y,z)) 
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Biểu đồ thanh 
Bayes Factor (BE, hệ số Bayes): là một tì số của hai xác suất có điểu kiện cho hai 
giả thuyết. Gọi hai giả thuyết là H, (giả thuyết vô hiệu) và HA (giả thuyết 
chính), gọi D là một chỉ số về phân bố của dữ liệu, phương pháp BF tính tỉ 
số P(D | H,) trên P(D | H,): 


_ P(P| Hạ) 
_ P(P|H,) 
Như vậy, BF định lượng xem đữ liệu nghiêng về giả thuyết nào. Nói cách 
khác, giả thuyết nào phù hợp với D. Do đó, nếu: 
® _BF= I, dữ liệu không nghiêng về giả thuyết nào cả; 
® _BF> 1, dữ liệu nghiêng về giả thuyết H,; và 
«_BF < 1, dữ liệu nghiêng về giả thuyết H,. 


Theo Jeffreys (người để xướng phương pháp BF từ thập niên 1960), ý nghĩa 
của BF có thể diễn giải như sau: 








Bayes factor Ý nghĩa 

>100 Bằng chứng thuyết phục nghiêng về giả thuyết H, 
(Decisive evidence for H,) 

30 to 100 Bằng chứng rất mạnh (Very strong evidence for H,) 

10 to 30 Bằng chứng mạnh (Strong evidence for H,) 

3to10 Bằng chứng đáng kể (Substantial evidence for H,) 

1to3 Bằng chứng yếu (Barely worth mentioning evidence. 
forH,) 
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1 Không có bằng chứng (No evidence) 


03to1 Bằng chứng yếu nghiêng về giả thuyết H, (Barely 
worth mentioning evidence for H,) 

0.1 to0.3 Bằng chứng đáng kể (Substantial evidence for H,) 

003 to 0.1 Bằng chứng mạnh (Strong evidence for H,) 

001 to0.03 Bằng chứng rất mạnh (Very strong evidence for H,) 

<001 Bằng chứng thuyết phục (Decisive evidence for H,) 


Bayesian Information Criterion hay Schwarz criterion (BIC, tiêu chuẩn thông 
tin Bayes): một chỉ số thống kê do Gideon E. Schwarz để xướng dùng để so. 
sánh hai hay nhiều mô hình cho một dữ liệu, sau khi đã hiệu chỉnh cho số 
tham số trong mô hình và một hệ số “phạt” cho những mô hình phức tạp. 
(nhiều tham số). Mô hình với giá trị BIC thấp nhất là mô hình được xem là 
"tối ứu: Công thức tính là BIC = -2(ML) + pxlog(n); trong đó ML là giá trị 
maximum likelihood, ø là số cỡ mẫu, p là số tham số trong mô hình. Xem 
Akaike information criterion. 





Bayesian Model Averaging (BMA): một phương pháp dựa trên cơ sở của Bayes 
Factor dùng để tuyển chọn một số biến tiên lượng có liên quan đến biến. 
phụ thuộc. BMA cung cấp xác suất hậu định cho mỗi biến số và mỗi mô. 
hình (thay vì trị số P như trường phái tấn số). Phương pháp BMA thường 
được áp dụng trong các mô hình hồi qui tuyến tính, hồi qui logistic và Cox 
proportional hazards model. 





Bayesian statisties: trường phái thống kê dựa vào định lí Bayes. 


Bernoulli distribution (phân bố Bernoulli): luật phân bố của một biến nhị phân 
X. Ví dụ: xác suất X bằng 1 là p có thể viết là: P(X = 1) = p. Tương tự, xác 
suất X = 0 là P(X = 0) =q= 1 - p. 

Bias: là một sai sót mang tính hệ thống có thể do thí nghiệm hay phương pháp 
đo lường. Bias phản ảnh sự khác biệt giữa giá trị đo lường (hay quan sát) 
và giá trị thật của một đặc tính. Có 3 loại bias chính trong nghiên cứu khoa 
học: selection bias (bias do chọn đối tượng nghiên cứu), information bias 
(bias do thu thập thông tin), và confounding (do yếu tố nhiễu hay yếu tố 
trung gian). 

Binary variable (biến nhị phân): là một biến số mang tính phân nhóm nhưng 
chỉ có 2 giá trị. Ví dụ: biến phản ảnh tốt nghiệp hay không tốt nghiệp trung 
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học; hay trong y khoa, biến nhị phân có thể là có bệnh (yes) hay không có 
bệnh (no). 

Binomial distribution (phân bố nhị phân): luật phân bố của một biến chỉ có 2 
giá trị (nhị phân). Luật phân bố nhị phân được xác định bởi 2 thông số p 
và n. Có thể viết tắt là B(n, p). Ví dụ: nếu chúng ta biết rằng số bệnh nhân 
bị biến chứng từ một can thiệp y khoa (tạm kí hiệu X) tuân theo luật phân 
bố chuẩn với tỉ lệ biến chứng là p, chúng ta có thể ước tính số ca biến chứng 
(k =0, 1,2, ...) trong số ø bệnh nhân: 

P(X=k)=Œ;p'(L=p) 
Giá trị kì vọng (trung bình) của một biến nhị phân là w = np, và phương sai 
np( - p). 
Hàm R: dbinom(x, size, prob, log = FALSE)¿ 


rbinom(n, size, prob) 





v~k 


làơ 





Bivariate correlation (tương quan giữa 2 biến): mối tương quan thống kê giữa 
hai biến số (đại lượng) hay hai yếu tố. Mức độ tương quan được phản ảnh. 
qua hệ số tương quan (coeficient oƒ correlation). 

Bonferroni adjustent (hiệu chỉnh Bonferroni) là một phương pháp điều chỉnh 
trị số P trong điểu kiện kiểm định nhiều giả thuyết thống kê cùng một lúc. 
Theo Bonferroni, trị số P dùng để tuyên bố “có ý nghĩa” (significant) trong 
điểu kiện k kiểm định là P/k. Ví dụ: nếu chúng ta xác định trị số 5% là 
ngưỡng để tuyên bố có ý nghĩa thống kẻ, thì trong một nghiên cứu có 10 
kiểm định giả thuyết (hay 10 so sánh) thì giá trị P điểu chỉnh là 0.05 / 10 = 
0.005. Nói cách khác, chỉ khi nào một phát hiện có P < 0.005 thì mới có thể 
tuyên bố là "có ý nghĩa thống kế” 

Trong R, có hàm p.adjust có thể điều chỉnh trị số P. Ví dụ: nếu chúng ta có 3 
kiểm định giả thuyết với 3 trị số P là 0.05, 0.017, 0.016, chúng ta có thể điểu 
chỉnh trị số P như sau: 

PÐ= c(0.05, 0.017, 0.016) 


p.adjust(p, method=“bonferroni”, n=3) 


Bootstrap analysis (phân tích tái chọn mẫu): một phương pháp phân tích “hiện 
đại” dựa trên khái niệm tái chọn mẫu (resampling) do B. Efron để xướng 
vào thập niên 1970. 


Hàm R: tham khảo hàm boor trong package boot. 
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Boxplot (biểu đổ hộp) còn gọi là “box and whisker plot, một loại biểu đổ được 
dùng thường xuyên trong nghiên cứu khoa học phản ảnh phân bố của một 


biến. 





" _—11- 





Giá trị ngoại vì ? 
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Biểu đồ hộp: minh hoạ và 


Giá trị ngoại vì ? 


giải thích 


Case study (nghiên cứu trường hợp): một dạng nghiên cứu chuyên sâu mà đối 
tượng thường là một cá nhân, một thực thể, hay một hiện tượng. Ví dụ như 
nhà khoa học thực hiện một nghiên cứu về sự thành công của một trường 
tiểu học, bằng cách phỏng vấn thầy cô giáo, xem xét đến tỉ lệ tốt nghiệp, tài 


trợ từ phụ huynh, v.v. 


Categorical variable (biến phân loại, hay biến rời rạc): là các biến số có giá trị 
mang tính phân loại, phân nhóm. Các biến số phân loại bao gồm biến định 
đanh (nominal variable), biến thứ tự (ordinal variable), và biến nhị phân 


(binary variable). 


Central limit theorem (định lí giới hạn trung tâm): một định lí toán học phát 
biểu rằng phân bố của các số trung bình mẫu tiệm cận với luật phân bổ bình. 
thường khi số cỡ mẫu càng lớn. Nói cụ thể hơn, nếu biến X (bất kể phân bố 
nào) có trung bình là tt và phương sai là ơ3, thì trung bình mẫu x dựa trên 
cỡ mẫu ¡ sẽ gần giống với luật phân bố bình thường với trung bình là i và 
phương sai là ơ/n khi ø lớn (thường hiểu theo nghĩa ø > 30). Đây là một 
trong những định lí quan trọng nhất trong thống kê học. Định lí này có thể 


minh hoạ bằng R: 
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for (¡ ín 1:500) 

{ 

xbar [1] =mean (rnorm (n, mean=mu , sđ=sigma ) 

} 

hist(xbar, prob=T, breaks=12) 

Chi-square test (kiểm định Ki bình phương, y'): một phương pháp kiểm định 

giả thuyết về sự khác biệt giữa hai nhóm. Phương pháp kiểm định xyŸ chỉ áp 
dụng cho các biến số rời rạc hay biến số phân nhóm. 


Cluster analysis (phân tích cụm): một phương pháp phân tích thống kê đa biến 
(multivariate model) thường được sử dụng để xác định và phân nhóm từ 
nhiều biến trong điểu kiện bất định. Phương pháp này được dùng để xác 
định xem các cá nhân hay đối tượng có cùng đặc điểm (phản ảnh qua các 
biến số đo lường được). Thời gian gần đây phương pháp phân tích cụm được 
áp dụng trong đi truyền học khá thường xuyên nhằm khám phá những gen 
có cùng ảnh hưởng sinh học. 

Hàm R: hc1ust () 

dat = dist(as.matrix(mtcars)) # tìm ma trận khoảng cách 
he = helust(dat) # phân tích cụm 

plot(hc) # vẽ biểu đổ kết quả 
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Biểu đồ minh hoạ kết quả của một phân tích cụm 
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Coefficient oƒ correlation (hệ số tương quan): thường được kí hiệu là r, là một 
chỉ số phản ảnh mối tương quan tuyến tính [thường] giữa hai biến liên tục. 
Hệ số tương quan có giá trị dao động trong khoảng -1 đến +1. Hệ số tương 
quan dương có nghĩa là biến X tăng thì biến Y cũng tăng; hệ số tương quan 
âm có nghĩa là khi X tăng thì Y giảm, hay X giảm thì Y tăng. Hệ số càng gần 
|| thì mối tương quan càng chặt chẽ. R có hàm cor(x, y) dùng để tính hệ số 
tương quan. 
x = 0:100 
Y = x†2 + 1.5*rnorm(length(x)) 


cor(x, y) 


Coefficient oƒ determination (hệ số xác định): thường được kí hiệu là R° (là bình 
phương của hệ số tương quan ) là một chỉ số phản ảnh mối tương quan. 
[thường] giữa hai biến số. Hệ số xác định được diễn giải là phần trăm phương 
sai của một biến phụ thuộc (depedent variable) có thể giải thích bởi một hay. 
nhiều biến tiên lượng hay biến độc lập (independent variables). Chú ý, mối 
tương quan thống kê không hẳn có nghĩa là mối liên hệ nhân quả. 

Coefficient oƒ variation (hệ số biến thiên) được tính bằng cách lấy độ lệch chuẩn 
chia cho số trung bình và nhân cho 100. Hệ số biến thiên phản ảnh mức độ 
đao động tương đối của một biến. Ví dụ: cho một biến số gồm các số liệu 9, 10, 
10, 12, và 14, chúng ta có thể tính trung bình là 11 và độ lệch chuẩn là 2, và 
hệ số biến thiên là 2/11 * 100 = 18.2%. Xem standard deviation. 

x = rnorm(n=l00, mean=l0, sd=2) 


cv = sd(x) /mean (x) 


Confidence interval (khoảng tin cậy): phản ảnh các giá trị khả dĩ của một tham 
số với một xác suất. 


30 40 50 


rhínd(1am, t:m) 
10 20 





635 630 635 640 645 


bindisamp_mean ~ zstar* SE, samp_mean + zstar* SE) 


Biểu đồ minh hoạ khoảng tin cậy 95%. 
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pop = 65-rexp (10000,0.65) 
for (i in 1:500) samp mean[i] = mean (sample (pop, 40, 
rep=T) ) 
samp mean = numeric (0) 
for (i in 1:50) samp mean[i] = mean (sample (pop,40, 
rep=T) ) 

m = 50; n = 40; mu = mean(pop); sigma = sd(pop) 
SE = sigma/sqrt (n) 

alpha = 0.05 ; zstar = qnorm(1-alpha/2) 

matplot (rbind( samp mean - zstar*§E, samp mean + 
Zstar*§E) ,rbind(1:m,1:m), type=“1”, lty=1) 
abline (v=mu) 

Confounding variable (biến nhiễu, confounder): là biến có liên quan đến biến 
phụ thuộc và biến độc lập. Biến nhiễu thường hiện diện trong các nghiên. 
cứu quan sát. 

Construct validity (hợp lí cấu hình): múc độ mà các biến số nghiên cứu phản 
ảnh (hay đại diện) cho một khái niệm. Ví dụ: điểm thi môn toán có thể xem 
là một đại diện cho sự thành đạt của học sinh, trong khi điểm về thái độ của 
học sinh không được xem là đại điện cho sự thành đạt. 


Content validity (hợp lí nội dung): mức độ mà các câu hỏi (items) của một bộ 
câu hỏi phản ảnh đẩy đủ nội dung mà bộ câu hỏi được thiết kế để đo lường. 


Continuous variable (biến liên tục): biến số giống như biến thứ tự, nhưng khoảng 
cách giữa các giá trị bảg nhau. Ví dụ: thu nhập cá nhân có thể đo bằng đồng, 
và nếu 3 người có thu nhập I triệu, 1.5 triệu, và 2 triệu, độ khác biệt giữa hai 
cá nhân 1 và 1.5 triệu bằng với khác biệt giữa 1.5 và 2 triệu đồng. Các biển 
như độ tuổi, trọng lượng, chiểu cao, v.v. là những biến liên tục. 

Control group (nhóm chứng): nhóm chứng thường hiện diện trong các nghiên 
cứu để đánh giá hiệu quả của một can thiệp. Nhóm chứng là nhóm không 
được can thiệp. 

Convenience sample (mẫu thuận tiện): là những mẫu nghiên cứu mà các đối 
tượng được chọn dựa vào sự tiện lợi. Ví dụ: nghiên cứu trên những học sinh 
của trường vì các em sẵn có mặt trong lớp. 

Covariance (hiệp biến): chỉ số phản ảnh mối tương quan giữa hai biến. Hiệp 
biến là tích số giữa biến XI và X2 sau khi đã hiệu chỉnh cho số trung bình 
và chia cho số cỡ mẫu. 
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Hàm R: cov (x1, x2). 

Cox5 proportional hazards model (mô hình hổi qui Cox): một phương pháp 
phân tích nhằm mô hình mối liên quan giữa hàm số rủi ro (hazard function) 
và các biến tiên lượng. Gọi h(t) là rủi ro ở thời điểm t, x, x„..., x;là các biến 
tiên lượng, mô hình hồi qui Cox phát biểu rằng: 

log(h()) = log(a) + B,x, + B„x, + ... + B,x, 
Trong đó, œ, Š,„ B.„ ... B,„ là các tham số của mô hình. 
Hàm R: eoxph(h ~ x1 - x2 + x3 +...) trong package "survival” 


Degrees oƒ freedom (4ƒ, bậc tự do): trong thống kê, bậc tự do là số yếu tố trong 
một đãy số (vector) có thể “tự do” biến chuyển. Bậc tự do thường được tính 
bằng cách lấy số cỡ mẫu trừ cho số tham số (parameters). Ví dụ: nếu cỡ mẫu. 
nghiên cứu là 10 đối tượng, và chúng ta tính số trung bình từ mẫu (tức 1 
tham số), thì bậc tự đo là 9. 

Có thể nói rằng khái niệm bậc tự do khó hiểu đối với người mới học thống, 
kê, Có thể giải thích khái niệm này qua ví dụ như sau: chúng ta có một biến x 
gồm 3 số 1, 6, và 5. Chỉ số trung bình của biến x là (1 + 6 + 5)/3 = 4. Bây giờ, 
thử tưởng tượng rằng chúng ta có một dây số khác cũng 3 số và trung bình là 
4. Trong thực tế, chúng ta có rất nhiều dãy số như thế, chẳng hạn như; 
2,4,6 

6,3,3 

10,11 

VÀ. 


tất cả đểu có trung bình là 4. Với các dãy số trên, chúng ta có thể chọn bất 
cứ 2 con số nào, và chúng ta không biết con số thứ 3 (nhưng chúng ta biết 
số trung bình là 4). Ví dụ như trong dãy số đầu tiên, chúng ta chọn 2 và 4, 
và biết rằng số trung bình là 4, thì số thứ 3 chắc chắn phải là 6. Hay như dãy 
số thứ 2, nếu 2 số đầu là 6 và 3, thì số thứ ba phải là 3. v.v.. Ví dụ này cho 
thấy chúng ta có 2 số “tự đơ) và trong thống kê, đặc điểm này được để cập 
là “bậc tự do 

Dependent variable (biến phụ thuộc): là biến số chịu sự tác động của các biến 
độc lập. 


Dichotomous variable (biến nhị phân): biến chỉ có 2 giá trị. Xem binary variable. 
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Diserete data (dữ liệu rời rạc): giống như biến số phân loại (categorical variable). 
Discriminant analysis (phân tích phân biệt): một phương pháp phân tích trong 
“gia đình” thống kê đa biến (multivariate statistics) có mục tiêu tiên lượng 
những biến định danh (nominal variables) dựa vào quan sát nhiều biến số 
khác. Mục tiêu của phân tích phân biệt có phần trùng hợp với phân tích 
cụm (cluster analysis), tức cũng tìm qui luật để phân nhóm đối tượng. Kĩ 
thuật phổ biến nhất có lẽ là Fisher Linear Discriminant analysis. 
Hàm R: 1da () trong package MASS 
1ibrary (MASS) 
fit = lda(G ~ x1 + x2 + x3, data=xxx, na.action=”na. 
omit”, CV=TRUE) 
plot (fit) 


Linear Discriminant Analysls (LĐA) 











Biểu đồ minh hoạ kết quả của một phân tích phân biệt. 
Trong biểu đố, với hai hàm số có thể phân biệt 4 nhóm đối tượng. 

Distribution (phân bố): trong thống kê học, phân bố có thể hiểu là tần số xuất 

hiện một nguyên tố của một biến số, và thường được thể hiện bằng một luật 

phân bố. Ví dụ: trong một nghiên cứu có kết quả như sau: 120 học sinh có 

điểm 0, 150 học sinh có điểm 1, 120 học sinh có điểm 2, v.v. Bảng tóm tắt 

tần số của từng điểm được hiểu như là phân bố. Hàm số mô tả mối liên quan 

giữa x và n là hàm số phân bố. 
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Điểm (x) Số học sinh (n) 
0 120 
1 150 
2 120 
3 100 
4 70 
5 50 
6 40 
>7 20 














Dummy variable (biến ảo): là biến nhị phân (có 2 giá trị 0 hoặc 1) để đại điện 
cho một biến khác. Biến ảo thường được sử dụng trong các mô hình hồi qui 
tuyến tính. 

Elject size (độ ảnh hưởng): Độ ảnh hưởng được tính bằng cách lấy độ khác biệt 
giữa 2 nhóm chia cho độ lệch chuẩn. Độ ảnh hưởng có khi còn được để cập 
đến như là “Cohens 4”, và được diễn giải như sau: đ = 0.2, ảnh hưởng thấp; 
đ=0.5 đến 0.8, trung bình; và đ = 0.8 hay cao hơn, ảnh hưởng lớn. 


Estimate (ước số): là một con số cụ thể được ước tính từ dữ liệu của mẫu. Nếu 
chúng ta muốn biết chiểu cao của học sinh trung học toàn quốc, thay vì tính 
toán trên cả nước, chúng ta có thể lấy mẫu và tính chỉ số trung bình. Giả 
dụ như chỉ số trung bình là 168 em, thì con số 168 em chính là một ước số. 


Estimation (ước tính): là một qui trình ước tính một tham số trong quần thể 
bằng một chỉ số thống kê. 


Estimator: là một đại lượng được tính toán từ đữ liệu của mẫu nhằm cung cấp 
thông tin về một đại lượng trong quần thể (tham số) mà chúng ta không 
biết. Ví dụ: số trung bình mẫu là một esfiafor của trung bình quần thể. 

Expected values (giá trị kì vọng): giá trị kì vọng khi giả thuyết vô hiệu đúng. Có 
thể xem giá trị kì vọng là số trung bình. 

External validity (hợp lí ngoại tại): khả năng mà kết quả nghiên cứu có thể khái 
quát hoá cho quần thể lớn hơn. Có những nghiên cứu được thiết kế tốt với 
những phương pháp đo lường chính xác (tức hợp lí nội 
mẫu nghiên cứu được chọn một cách có chọn lọc nên độ hợp lí ngoại tại 
không cao. Xem internal validity. 





cao) nhưng vì 
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Extraneous variables (biến ngoại vi): các biến số không được thiết kế để gây tác 
động đến kết quả hay kết luận. Ví dụ: nhà nghiên cứu muốn đánh giá độ ảnh 
hưởng của hai chương trình giảng dạy lớp 1, các biến ngoại vi có thể là khả 
năng diễn đạt của học sinh và đặc điểm của thầy cô. 

EF distribution (phân bố F): một phân bố thường được áp dụng để so sánh hai 
phương sai trong mô hình hồi qui tuyến tính và phân tích phương sai. 
Factor analysis (phân tích yếu tố): một phương pháp phân tích thống kê nhằm 
giảm các biến số nghiên cứu thành một số nhỏ biến được gọi là factors (yếu 
tố). Phân tích yếu tố thường được sử dụng để mô tả mối liên quan giữa kết 
quả kiểm định và các biến tiểm ẩn (latent variable). Nói cách khác, trong. 
phân tích yếu tố, một yếu tố (factor) là một biến tiểm ẩn, không quan sát 
được, dùng để mô tả mối liên quan giữa các biến. Yếu tố do đó là một hàm 

tuyến tính với các biến quan sát được: 


X.=ÀJF, +À„Ê, +... +À„Ê„ + E,í= 1, 2,..., n and j = 1, 2,..., m 





Trong đó, X, là biến số quan sát (kết quả của kiểm định), À, là "loading” (hệ 
số hồi qui) của yếu tố F, và E, là yếu tố cụ thể cho kiểm định ¡. 

Ví dụ: Nhà nghiên cứu đo lường thành quả học tập bằng một bộ câu hỏi với 
24 câu hỏi. Sau khi phân tích 24 câu hỏi này có thể tóm lược bằng 3 yếu tố. 












































Biểu đồ minh hoạ phân tích yếu tố. 
Biến “General Math là yếu tố và là hàm số của 6 biến quan sát A, B, C, D, E, và F. 
Tương tự, biến “Math X” và“Math Y” là hai yếu tố, và phản ảnh mối tương quan 
giữa A, B, và C (cho Math X), với D, E, và F (cho Math Y). 


Hàm R: tham khảo package psych có nhiều hàm cho phân tích yếu tố. 
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False discovery rate (FDR - xác suất khám phá giả): trong kiểm định giả thuyết, 
chúng ta có 4 tình huống (A, B, C, D) có thể tóm lược trong bảng dưới đây: 











Significant NotSignificant 
(có ý nghĩa thống kê) _ | (không có ý nghĩa thống kê) 
Không khác biệt R ' 
(giả thuyết vô hiệu đúng) 
Có khác biệt € n 














(giả thuyết vô hiệu sai) 





Trong bảng trên, A, B, C và D thể hiện số lần so sánh. Do đó, A + B + C+ D 
là tổng số lần so sánh. Dĩ nhiên, trong thực tế chúng ta không bao giờ biết được 
có hay không có khác biệt, nên không thể nào ước tính tổng số lần so sánh được. 

Thông thường, trong kiểm định thống kê và kiểm định nhiểu giả thuyết 
(nhiều so sánh) chúng ta đặt câu hỏi: Nếu giả thuyết vô hiệu là đúng, xác suất có 
những kết quả có ý nghĩa thống kê là bao nhiêu? 

Đối với FDR, câu hỏi đặt ra là: Nếu một kiểm định có ý nghĩa thống kê, xác 
suất giả thuyết vô hiệu đúng là bao nhiêu? 

Nếu chúng ta kiểm định chỉ 1 giả thuyết (tức chỉ 1 so sánh) thì không thể trả 
lời câu hỏi trên (nếu không có xác suất tiển định - prior probability). Nhưng nếu 
chúng ta kiểm định nhiều giả thuyết, thì FDR chính là A/(A + €). Trị số này có 
khi còn được gọi là trị số Q. Chúng ta có thể định trị số Q và phương pháp FDR 
sẽ định trị số P sao cho một “discovery” có thể phát biểu với xác suất cao nhất. 

Hàm R: qvalue() trong package qvalue 

P = scan(*pvalues.txt”) 

qobj = qvalue(p) 

qplot (qob3j) 

qobj = qvalue(p, lambda=0.5, robust=TRUE) 

qobj = qvalue(p, fdr.level=0.05, pi0. 
method=”bootstrap”) 

Eisher exact test (kiểm định chính xác Fisher): phương pháp kiểm định giả 
thuyết áp dụng cho các biến số phân nhóm và với tần số rất thấp. Phương 
pháp này được dùng thay thế kiểm định Ki bình phương khi số biến cố thấp 
hơn 5. 


Hàm R: fisher. Cest () 
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Eisher5 z transformation (phép hoán chuyển Fisher): một phương pháp hoán 
chuyển hệ số tương quan r sao cho hệ số này tuân theo luật phân bố chuẩn. 
Gọi r là hệ số tương quan quan sát được, hoán chuyển Fisher định nghĩa 


như sau: 
z= 05a TC) 
I~r 
Fisher chứng minh rằng z bây giờ sẽ có giá trị trung bình là 0.5log| P5 và 


phương sai m - 3; trong đó ø là hệ số tương quan của quần thể. Hoán chuyển z 
được ứng dụng trong việc kiểm định giả thuyết vô hiệu ø bằng 0. Phương pháp 
kiểm định được triển khai qua hàm cor.test (x, y) trong R. 

Frequentist statistics: trường phái thống kê dựa vào triết lí tần số. Xem thêm 
Bayesian statistics. 

Geometric mean (trung bình căn số): Cho một dãy số Xụ X„y...› X„„ SỐ trung 
bình căn số được định nghĩa là tích số của dãy số căn số bận n: 

Trung bình căn số = (x, x x,x... x x,)!" 
Ví dụ R: Hàm đưới đây tính giá trị trung bình geometric cho một dãy số x: 
x= c(1, 10, 45, 20, 100) 
n = length(x) 
prod (x) ^ (1/n) 

Goodness-of-fit statistics (độ hợp lí của chỉ số thống kê): chỉ số thống kê dùng 
để đánh giá sự đồng dạng giữa giá trị quan sát được và giá trị tiên lượng từ 
một mô hình hay một luật phân bố. 

Gradient (còn gọi là slope, độ đốc): là hệ số hồi qui phản ảnh độ dốc của một 
đường biểu diễn. Trong mô hình hồi qui tuyến tính Y = a + BX + e, Š là độ 
dốc. Xem thêm infercept. 

Harmonic mean (trung bình điểu hoà): số trung bình của số nghịch đảo. Cho 
một dãy số x,, x„.. ., x,„ số trung bình điều hoà là: 


Trung bình điểu hoà = n/ Š (1/x,) 





Ví dụ R: Hàm dưới đây tính giá trị trung bình harmonic cho một dãy số x: 
x= c(1, 10, 45, 20, 100) 
1/mean (1/x) 
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Hazard (rải ro): là tỉ suất (rate) mà biến cố xảy ra trong một thời gian rất ngắn. 
Có thể xem risk (nguy cơ) là xác suất biến cố xảy ra là tích số của thời gian 
quan sát và hazard. Xem thêm risk. 

Hazard ratio (tỉ số rủi ro): tì số của hai rùi ro, thường được sử dụng trong các 
phân tích sống còn và mô hình Cox. Nói chung, hazard ratio tưởng đương 
với risk ratio nếu nguy cơ của biến cố không thay đổi theo thời gian. 

Hierarchical linear model (HLM - mô hình tuyến tính phân tầng): một mô 
hình phân tích thống kê hiện đại có thể áp dụng cho các dữ liệu nghiên. 
cứu mang tính đa tầng. Ví dụ như điểm của học sinh có thể phụ thuộc vào. 
những yếu tố liên quan đến cá nhân học sinh, gia đình, trường học, và môi 
trường xã hội. Mô hình tuyến tính phân tầng giúp chúng ta ước tính mức độ. 
ảnh hưởng của từng nhóm yếu tố. 

Hàm R: 1me(y ~ x) 

Heterogeneity (bất đồng dạng): trong thống kê học, heterogeneity để cập đến sự 
khác biệt về phương sai giữa các nhóm. Nếu nhóm A và nhóm B có phương 
sai khác nhau (vi phạm giả định của phương pháp kiểm định t) thì được 
xem là bất đồng dạng phương sai. 

Histogram (biểu đổ phân bố): một dạng biểu đồ "đếm” thường được dùng để 
thể hiện sự phân bố của một biến số (liên tục hay không liên tục). Hàm R: 
hist (x): 

x = rnorm(n=1000, mean=20, sd=5) 


hlst (x, breaks=20) 


Histogram of x 
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100 
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Biểu đổ thanh với hàm hist(x) 
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Hypothesis (giả thuyết): một phát biểu mang tính tiên lượng về mối liên quan 
giữa 2 hay hơn 2 biến. Ví dụ: chương trình giảng dạy mới có hiệu quả hơn 
chương trình giảng dạy hiện hành. Xem nưll hypothesis. 

Independent variable (biến độc lập): trong nghiên cứu can thiệp, biến độc lập 
là biến mà nhà nghiên cứu có thể can thiệp để gây tác động đến biến phụ 
thuộc (dependent variable). Ví dụ: trong nghiên cứu về tác động của chương 
trình giảng dạy đến điểm thi, thì biến phản ảnh chương trình giảng dạy 
được xem là biến độc lập. 

Inƒormation bias (bìas do thông tin): một dạng bias do sai sót trong quá trình 
thu thập thông tin hay đo lường. Trong các nghiên cứu quan sát, có khi đối 
tượng tham gia nghiên cứu cung cấp thông tin sai (do quên hay cố ý), hoặc 
cách người phỏng vấn hỏi và thu thập thông tin. Tất cả những vấn để đó 
dẫn đến kết quả là số liệu không phản ảnh đúng thực tế và được gọi là bias. 

Tmteraction efject (ảnh hưởng tương tác) liên quan đến 3 biến Y (phụ thuộc), X 
(biến độc lập) và Z (biến “nhiễu”). Ảnh hưởng tương tác xảy ra khi sự tác 
động của X lên Y tuỳ thuộc vào Z. Xem main effect. 

Ví dụ: Chúng ta biết rằng hút thuốc lá và béo phì là hai yếu tố có ảnh hưởng. 
đến nguy cơ mắc bệnh tim mạch. Trong một nghiên cứu được thiết kế để đánh 
giá mối liên quan giữa béo phì và bệnh tim mạch, và người ta phát hiện rằng 
mức độ ảnh hưởng của béo phì [đến bệnh] ở người hút thuốc lá cao hơn ảnh 
hưởng của béo phì ở người không hút thuốc lá. Trong trường hợp này, chúng ta 
nói rằng có mối tương tác giữa béo phì và hút thuốc lá. 


s 





























Lư percgtedencodragemsntfor- Hợhpetdvedencovagementfor 
—— TRvơnfnhg 


Biểu đồ minh hoạ ảnh hưởng tương tác. Biểu đồ thể hiện mối tương quan giữa cảm 
nhận được khuyến khích bởi cha (trục hoành) và mức độ hài lòng với thân thể (trục 
tung) cho nam giới (đường biểu diễn liên tục) và nữ giới (đường đứt đoạn). Ảnh 
hưởng tương tác xảy ra khi hai đường biểu diễn không song song nhau. 
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Tntercept (chắn): trong mô hình hồi qui tuyến tính Y = a + BX + e, œ là giá trị 
của Y khi X = 0, và được gọi là chắn - intercept (xem hình). Xem thêm sÌope. 









AY 





AX  Slope=AY/AX 


Yintercept 


hộ 


Internal validity (hợp lí nội tại): mức độ mà kết luận nghiên cứu nhất quán với 
dữ liệu thu thập được. Hợp lí nội tại liên quan đến phương pháp đo lường 
và phương pháp phân tích. Xem external validity. 

Kaplan-Meier survival curve (biểu đồ Kaplan-Meier): biểu đồ thể hiện xác 
suất tích luỹ sống còn (cumulative survival probability) của một nhóm 
đối tượng. Phương pháp ước tính xác suất còn được gọi là product limit 
estimator do Edward Kaplan và Paul Meier để xướng vào năm 1958 (Kaplan 
E Lộ Meier P. Nonparametric estimation from incomplete observations. 
JASA 1958;53:457-81). Đây là một trong những phương pháp có ảnh hưởng 
rất lớn đến khoa học và y khoa. 

Kappa statistic (chỉ số kappa): một chỉ số thống kê dùng để chỉ độ nhất quán 
giữa hai quan sát viên (hay hai người đánh giá). Chỉ số kappa thường dùng 
cho các biến định danh và biến phân nhóm. Hàm R: kappam.fleiss () 
trong package Ìr+. 

1ibrary (irr) 
đata (điagnoses) 


kappam.fleiss (điagnoses) 
Kurtosis (độ nhọn): chỉ số thống kê phản ảnh độ nhọn của một phân bố. 


Hàm R: kurtosis (x) 
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Biểu đồ minh hoạ độ nhọn của phân bố bình thường 


Latent variable (biến tiểm ẩn): là những biến số không thể quan sát và không 
thể đo lường được, nhưng có ảnh hưởng đến biến phụ thuộc. 


Đa II: 
— [z] *z 
CV 
NI“ 


Biểu đồ minh hoạ khái niệm biến tiềm ẩn (V) 
như là hàm số của 4 biển quan sát X1, X2, X3 và X4. Trong biểu đồ, e1, e2, e3, 
và e4 là sai số của mô hình cho từng biến quan sát. 





Kruskal-Wallis test (kiểm định Kruskal- Wallis): một phương pháp phi tham số 
so sánh nhiều nhóm dựa vào thứ hạng (rank), tương đương với phân tích 
phương sai. Hàm R: kruskal.test(x ~ group). 


Likert scale (thang điểm Likert): thang điểm mà đối tượng nghiên cứu trả lời về 
những thái độ và niềm tin của họ. Thang điểm Likert dao động từ “tiêu cực” 
đến “tích cực” Ví dụ: thang điểm về thái độ có thể dao động từ "rất không 
thích? “không thích? “không có ý kiến”, “thích” "rất thích”. 

Linear regression model (mô hình hồi qui tuyến tính): một trong những mô 
hình phân tích dữ liệu phổ biến nhất. Mô hình hồi qui tuyến tính đơn 
biến (simple linear regression model) là một kĩ thuật dùng để mô tả mối 
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tương quan giữa biến phụ thuộc (y) và biến độc lập (x) bằng một hàm số 
tuyến tính: 


Y=a+BX+e 


Trong đó, œ là intercept, 8 là độ đốc (slope) và e là sai số (error). Xem thêm 
multiple linear regression. Hàm R: 1m(y ~ x). 
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Biểu đồ minh hoạ mô hình hồi qui tuyến tính đơn giản 
phản ảnh mối liên quan giữa điểm GPA trung học và điểm GPA đại học 
Logistic regression model (mô hình hổi qui logistie): một dạng mô hình hồi qui, 
nhưng biến phụ thuộc là biến nhị phân (nhưng cũng có thể là biến phân 
nhóm, rời rạc). Gọi P là xác suất của một biến cố và X là biến tiên lượng, mô. 
hình hồi qui logistic phát biểu rằng: 


tT 2 ]~e+øx 


trong đó, s(TS>) được gọi là logit(P), a và § là tham số của mô hình. 


Hàm R: g1m(y ~ x„ family=binomial) 
1ibrary (MASS) 
data (menarche) 


model = g1m(cbind(Menarche, Total-Menarche) ~ 
Age, fami1y=binomial (1ogit)„ data=menarche) 
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plot (Menarche/Total ~ Age, data=menarche) 


1ines (menarche$Age, model$fitted, type=”1”, col=“red”) 











ˆ ood9 
8 Š 
5 
5 
s 
Ễ 8 
§ 
ỹ 
š.s 
§ š 
5 
š 
bì 
s T T T T 
10 12 N 1%6 


Age 


Biểu đồ minh hoạ mối liên quan giữa độ tuổi và xác suất có kinh nguyệt 
theo mô hình hồi qui logistic 

Longitudinal research (nghiên cứu theo thời gian): một mô hình nghiên cứu 
được thiết kế mà theo đó các đối tượng nghiên cứu được theo dõi theo thời 
gian. 

Main effect (ảnh hưởng chính): có khi còn gọi là marginal effeet, là ảnh hưởng 
của một biến độc lập đến một biến phụ thuộc và sự ảnh hưởng không phụ 
thuộc vào biến thứ ba. Xem inferaction effect. 

Ví dụ: Chúng ta biết rằng hút thuốc lá và béo phì là hai yếu tố có ảnh hưởng. 
đến nguy cơ mắc bệnh tim mạch. Trong một nghiên cứu được thiết kế để đánh 
giá mối liên quan giữa béo phì và bệnh tim mạch, và người ta phát hiện rằng 
mức độ ảnh hưởng của béo phì [đến bệnh] ở người hút thuốc lá tương đương 
với ảnh hưởng của béo phì ở người không hút thuốc lá. Trong trường hợp này, 
chúng ta nói rằng ảnh hưởng của béo phì là znain effect. 
Mann-Whitney-Wilcoxon test (kiểm định Mann-Whitney-Wilcoxon): là một 

phương pháp phi tham số, nhằm kiểm định giả thuyết cho hai nhóm độc 

lập dựa vào thứ bậc (rank), tương đương với kiểm định t. Hàm R: wilcox. 
test(X ~ group). 
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Mean (trung bình): chỉ số trung bình, được tính bằng cách lấy tổng số chia cho. 
số đối tượng. Ví dụ: số trung bình của 9, 10, 10, 12, và 14 là 11. Tính bằng 
cách (9 + 10 + 10 + 12 + 14)/5. Hàm R: mean (x) 

x = rnorm(n=l00, mean=l0, sd=2) 
mean (x) 

Mean square error (bình phương trung bình, MSE): là số trung bình của dao 
động dư bình phương. Gọi Y là giá trị quan sát thực tế, Ÿ là giá trị tiên 
lượng từ một mô hình thống kê, dao động dư có thể định nghĩa là: E = Y - 
Ÿ. MSE được tính bằng cách lấy tổng bình phương (9(72)) và chia cho số 
bậc tự do. 

Median (trung vị): giá trị trung tâm của một dãy số. Theo đó, 50% đối tượng có 
điểm dưới số trung vị, và 50%. đối tượng có điểm trên số trung vị. Ví dụ: số 
trung vị của đãy số 9, 10, 10, 12, và 14 là 10. Hàm R: median(x) 

x = rnorm(n=l00, mean=l0, sd=2) 
median (x) 

Meta-analysis (phân tích tổng hợp): một phương pháp phân tích trong những 
nghiên cứu tổng quan có hệ thống (systematic review). Phân tích tổng hợp. 
thường tổng hợp kết quả các nghiên cứu đơn lẻ để cho ra một kết quả chung. 


Mode (số phổ biến): số xuất hiện nhiều lấn nhất trong một dây số. Ví dụ: số 
mode của dãy số 9, 10, 10, 12, và 14 là 10. 

Model (mô hình): là một qui luật thống kê nhằm đại điện cho thế giới tự nhiên. 

Multicollinearity (đa cộng tuyến): là hiện tượng thống kê thường hiện diện 
trong các mô hình hồi tuyến tính đa biến (multiple linear regression), mà 
trong đó các biến tiên lượng có liên quan với nhau (thể hiện qua hệ số tương 
quan khá cao) và mối liên quan đó gây khó khăn trong việc đánh giá tầm 
ảnh hưởng độc lập của một biến tiên lượng. Cách đánh giá hiện tượng đa 
cộng tuyến là chỉ số VIF (variance inflation factor). Hàm R: vi£ ().. 
model = 1m(y ~ x) 
vi£ (model) 
sqrt (vif (model)) > 2 

Multiple regression model (mô hình hổi qui tuyến tính đa biến): một mô hình 
tuyến tính phản ảnh mối liên quan giữa một biến phụ thuộc (Y) và nhiều 
biến tiên lượng (X). Mô hình hồi qui tuyến tính đa biến cho phép chúng ta 
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ước tính mức độ ảnh hưởng của các biến tiên lượng và xây dựng mô hình 
tiên lượng. Mô hình hồi qui tuyến tính đa biến có thể viết như sau: 
Y=a+BX,tyX,+ÀX,+e 
Trong đó, q, Ö, y, và À là những tham số của mô hình cần phải ước tính từ 
dữ liệu thực tế; X., X,, X, là những biến độc lập, và là sai số. Xem thêm linear 
regression model. 
Hàm R: lm(y ~ x1 + x2 + x3 + ..) 


Multiple testing (multiplicity) thường xảy ra khi một nghiên cứu có nhiều so 
sánh hay kiểm định nhiều giả thuyết trên cùng một dữ liệu. Ví dụ như một 
nghiên cứu tìm gen có ảnh hưởng đến chỉ số thông minh, nhà nghiên cứu. 
có thể test hàng ngàn, thậm chí hàng triệu gen, trong cùng một cơ sở dữ liệu. 
Khi kiểm định nhiều giả thuyết xảy ra tình trạng sai sót loại I tăng nhanh, và 
dẫn đến xác suất dương tính giả tăng cao. Mỗi kiểm định giả thuyết, chúng 
ta chấp nhận sai sót loại I là a, tức xác suất đúng là 1 - a. Nếu chúng ta kiểm 
định k giả thuyết thì xác suất chúng ta đúng tất cả k giả thuyết là (1 - a)*. Nói 
cách khác, xác suất có ít nhất một phát hiện ngẫu nhiên nhưng có ý nghĩa 
thống kê bây giờ là 1 - (1- a)*. Nếu a = 0.05 và chúng ta kiểm định 100 giả 
thuyết (k = 100) thì xác suất có một phát hiện ngẫu nhiên nhưng có ý nghĩa 
thống kê là 999%, 

Hiện tượng “lạm phát” sai sót loại I và đương tính giả dẫn đến một số phương 
phướng hiệu chỉnh cho trị số P. Một số phương pháp phổ biến là Bonferroni, 
Tukey, Scheffe, và Benjamini & Hochberg. Phương pháp Bonferroni đơn giản 
nhất và được áp dụng phổ biến nhất. R có hàm p.adjust có thể dùng để điểu 
chỉnh trị số P. 


p.adjust(p, method=”xxx”, n=k) 
Trong đó p là một vector gồm các trị số P, xxx là phương 
pháp (bonferroni, BH, BY, hochberg, fdr, holm), và k là 
số trị số P. Ví dụ: 
p =c(0.05, 0.017, 0.016) 
p.adjust(p, method=”BH”, n=3) 

Nominal variable (biến định danh): là một biến số mang tính phân nhóm, 
nhưng giá trị mang tính định danh. Ví dụ: biến phản ảnh giới tính có hai giá 
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trị “nam” và “nữ” là một biến định danh. Xem Ordinal variable, categorical 
variable. 


Non-parametric methods (phương pháp phi tham số, cũng có khi gọi là 
distribution-free methods): một nhóm phương pháp phân tích không dựa 
vào luật phân bố của dữ liệu. Các phương pháp kiểm định như Kruskal- 
'Wallis, Mann-Whitney và Wilcoxon là các phương pháp phi tham số. 

Normal distribution (phân bố chuẩn hay phân bổ bình thường): luật phân bố 
áp dụng các biến liên tục (continuous variables), có hình dạng giống như. 
cái chuông, với giá trị trung bình ở trung tâm, 50% giá trị thấp hơn số trung 
bình, và 50% cao hơn giá trị trung bình. Nếu một biến số tuân theo luật 
phân bố chuẩn thì số trung bình bằng số trung vị. Luật phân bố trung bình 
được định hình bởi 2 thông số: trung bình (u) và độ lệch chuẩn (ơ). Nếu X 
tuân theo luật phân bố chuẩn, chúng ta có thể viết mật độ phân bố của X 
như sau: 

'(x)=—L_ ørtr-z}/2ø` 
/x)=—=“* 
Hàm R: 


dnorm (x, mean=0, sd=l, log=F); rnorm(n, mean=0, sd=1) 
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Nomail Distribution Curves 





Biểu đồ minh hoạ cho một phân bố chuẩn với trung bình 0 và độ lệch chuẩn 1 
(còn gọi là phân bố bình thường chuẩn hoá - standardized normal distribution). 
Theo phân bố này, x chính là số độ lệch chuẩn. Một vài thông sổ quan trọng 
của phân bố được áp dụng trong thực tế: 68% giá trị nằm trong khoảng -1 đến 1; 
95% giá trị trong khoảng -2 đến +2, và 99.7% giá trị trong khoảng -3 đến +3. 


NI hypothesis (giả thuyết vô hiệu): một phát biểu rằng biến phụ thuộc và biến 
độc lập không có liên quan. Trong thực tế, nhà nghiên cứu thiết kế nghiên 
cứu nhằm bác bỏ giả thuyết vô hiệu (còn gọi là phản nghiệm - ƒalsification). 
Odds là tỉ số biến cố xảy ra trên số biến cố không xảy ra. Gọi P là xác suất của 
một biến cố, odds có thể định nghĩa là odds = P/ (1 - P). 
385 
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Odds ratio (tỉ số odds) là tỉ số của hai odds. Ví dụ: lớp học 1 có 100 học sinh, với 
90 học sinh tốt nghiệp và 10 học sinh không tốt nghiệp; lớp học 2 với 200 
học sinh, trong đó 150 học sinh tốt nghiệp và 50 không tốt nghiệp: 





Tốt nghiệp _ | Không tốt nghiệp |_ Oddstốt nghiệp 
Lớp học 1 90 10 90 























Lớp học 2 150 50 3.0 





Với những kết quả trên, odds tốt nghiệp của lớp học 1 là 90 / 10 = 9, và của 
lớp học 2 là 150 / 50 = 3. Do đó, tỉ số odds (OR) = 9/3 = 3.0 

Xem thêm relative risk. 

Hàm R: Trong package epiR có hàm epi.2by2() có thể tính OR cho một 
nghiên cứu đơn giản. 

1ibrary (epiR) 

dat = matrix(c(13,2163,5,3349), nrow = 2, byrow = TRUE) 


rownames (dat) = c(*Exposure+”, *Exposure-”) 
colnames (dat) = c(*Disease+”, *Disease-”“) 
epi.2by2 (dat = as.table(dat), method = "cross. 


sectional”) 


One-sided hypothesis (giả thuyết một chiểu): tương tự với one-tailed hypothesis. 
Trong kiểm định thống kê, chúng ta có thể phát biểu giả thuyết vô hiệu là 
Hị;ụ, = h, và giả thuyết chính H,: 4, # H, (tức t, < H, hoặc h, > g,) được gọi 
là giả thuyết hai chiểu (two-sided hypothesis). Nhưng nếu giả thuyết chính 
là H,: t, < Hạ thì được gọi là giả thuyết một chiểu. Tương tự H,: h, > , cũng 
được gọi là giả thuyết một chiều. 

Ordinal variable (biến thứ tự): là một biến số mang tính phân nhóm (categorical 
variable) nhưng các giá trị theo thứ tự định lượng. Ví dụ: biến phản ảnh 
trình độ học vấn có thể có giá trị "tiểu học” “trung học”, "cử nhân”, và “thạc 
sĩ/tiến sĩ” là biến thứ tự. Xem Nơminal variable, categorical variable. 





Ouflier (giá trị ngoại vi): là những giá trị nằm ngoài sự kì vọng của một luật 
phân bố. Một số phương pháp kiểm định giá trị ngoại vi có thể áp dụng 
để tìm giá trị “nghỉ ngờ” Trong R có package outliers với hàm dixon. 
test(x), grubbs.test(x), cochran.test (x) : 
x= œ(1.1, 1-2, 2.1, 2.2, 100) 
1ibrary (outliers) 


đixon. test (x) 
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Biểu đồ minh hoạ một giá trị ngoại vi. 


P value (trị số P): là một trị số được ước tính từ một kiểm định giả thuyết. Trị số 
P được định nghĩa là xác suất đữ liệu xảy ra nếu giả thuyết vô hiệu là đúng. 
Gọi giả thuyết vô hiệu là H, và dữ liệu là D, trị số P = P(D | H,). 

Parameter (tham số), cũng có khi để cập đến như là thông số. Tham số liên quan 
đến quần thể (population), khác với estmafe (ước số) liên quan đến mẫu. 
nghiên cứu. 

Percentile (bách phân vị): một dãy số hay biến số có thể chia thành 100 nhóm 
(bách phân) mà không cần tuân theo luật phân bố nào. Bách phân vị 50% 
chính là số trung vị. 

Poisson distribution (phân bố Poisson): luật phân bố thường được áp dụng cho 
các số đếm (counts) và cho các biến cố hiếm. Chẳng hạn như số ca tử vong 
sau khi tiêm chủng vaccine có thể xem là tuân theo luật phân bố Poisson (vì 
số ca tử vong thường rất thấp so với số người được tiêm chủng). Luật phân 
bố Poisson được định hình chỉ với một tham số À. Nếu Y là một biến số tuân 
theo luật phân bố Poisson, thì xác suất mà Y = k (k là số đếm) là: 

£2' 


P(Y=k)= 1 





Giá trị kì vọng (trung bình) của một biến Poisson là ti = À, và phương sai là 
ơœ=À. 


Hàm R: dpois(y, lambda, log = FALSE); rpois(n, lambda) 
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Poisson regression (hổi qui Poisson): mô hình hồi qui mà trong đó biến phụ 
thuộc (Y) là biến số đếm và tuân theo luật phân bố Poisson. Gọi Y là một biến 
“2t 
? 
mô hình hồi qui Poisson phát biểu rằng lambda là hàm số của biến tiên 
lượng X như sau: 4=exp(z+/X). Trong R có hàm gÌm có thể ước tính 
tham số của mô hình. 


ngẫu nhiên tuân theo luật phân bố Poisson, với xác suất P(Y = k)= 





Hàm R: pois = gl1m(y ~ x, family=poisson) 

Population (quần thể): tập hợp tất cả các đối tượng trong một quần thể mà 
chúng ta có thể lấy mẫu. Ví dụ: quần thể có thể là tất cả các giáo viên tiểu. 
học ở Việt Nam, tất cả các trường công lập ở Việt Nam, v.v. 

Power của một nghiên cứu là độ nhạy của nghiên cứu đó, tức xác suất phát hiện 
một mối liên quan (hay sự ảnh hưởng) thật. Trong chẩn đoán, độ nhạy hay 
sensitivity là xác suất bệnh nhân có kết quả dương tính. Trong nghiên cứu. 
khoa học, power là xác suất mà nghiên cứu có thể phát hiện một mối liên 
quan thật. Power phụ thuộc vào số cỡ mẫu: cỡ mẫu càng tăng, power càng cao. 

q value (trị số q): Xem False Discovery Rate. 

Predictor variable (biến tiên lượng): giống như independent variable. 

Precision (độ chính xác): giống như reliability. 

Range (cự li) là khoảng cách giữa giá trị cao nhất và giá trị thấp nhất của một 
biến số. Ví dụ: trong biến số gốm các giá trị 9, 10, 10, 12, 14 là (14 - 9) = 5. 

Regression analysis (phân tích hổi qui): một phương pháp phân tích dùng để 

ột biến phụ thuộc (Y) và một hay. 

nhiều biến độc lập (X). Phân tích hồi qui có thể theo mô hình tuyến tính 
hay phi tuyến tính. 





Hàm R: Im(y ~ x) dùng để phân tích mối tương quan giữa y và x. 
n = 1000 

x1 = rnorm(n) 
x2 = rnorm(n) 
e = 0.1*rnorm(n) 

0.5 + 0.75*x1+0.25*x2 + e 





“ 


1m(y ~ x1) 


Regression coeflicients (hệ số hổi qui): hệ số liên quan đến một biến tiên lượng. 
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Ví dụ: mô hình Y = 1.5 + 3.5*XI1 - 2.7*X2, 1.5, 3.5 và 2.7 là hệ số hồi qui. 


Regression toward the mean (xu hướng hồi qui về trung bình): trong các thí 
nghiệm liên quan đến đo lường một nhóm đối tượng hai lần, và nếu biến số 
đo lường có sai số ngẫu nhiên (random error), có một xu hướng chung là 
các giá trị cực đại - có thể rất thấp hay rất cao - trong lần đo đầu tiên thường 
quay về giá trị trung bình trong lần đo thứ hai. Hiện tượng này có thể dẫn 
đến kết luận sai lầm về ảnh hưởng của một thuật can thiệp. 

Relative risk: xem risk ratio. 


Reliability (độ tin cậy): mức độ tin cậy của một phương pháp đo lường là sự 
nhất quán của giá trị đo lường nếu được lặp lại nhiều lần trong một thời 
gian ngắn đưới một điểu kiện. 





Biểu đồ minh hoạ khác biệt giữa khái niệm tin cậy và hợp lí (chính xác). Tâm điểm 
là dấu chấm to. Biểu đồ bên trái cho thấy phương pháp đo lường có độ tin cậy cao 
nhưng không chính xác. Biểu đồ giữa cho thấy đo lường tương đối chỉnh xác nhưng. 
không có độ tin cậy cao. Biểu đổ bên phải cho thấy đo lường vừa chính xác vừa có 
độ tin cậy cao. 


Reliability coefficient (hệ số tin cậy): hệ số đo lường độ tin cậy của một phương 
pháp đo lường. Hệ số tin cậy có giá trị từ 0 đến 1. Giá trị càng cao có nghĩa 
là độ tin cậy càng cao. Hàm R: icc () trong package irr. 
r1 = round(rnorm(20, 10, 4)) 


r2 





= round(r1 + 10 + rnorm(20, 0, 2)) 
rz3 = round(rl + 20 + rnorm(20, 0, 2)) 
đat = cbind(r1,r2,r3) 

dcc (dat) 


Residual (dao động dư): là một đại lượng của mô hình hồi qui. Dao động dư là 
độ khác biệt (hiệu số) giữa giá trị tiền lượng và giá trị quan sát. 
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Fitted value' 






Residual 


Biểu đồ minh hoạ dao động dư (residual). 
Dao động dư là hiệu số giữa giá trị tiên lượng bởi đường biểu diễn (fitted line) 
và giá trị quan sắt trong thực tế (những điểm đen). 


Risk (nguy cơ): xác suất một biến cố bất lợi xảy ra trong một khoảng thời gian 
nhất định. Nguy cơ cũng có thể ước tính bằng tỉ lệ. Mối liên quan giữa risk 
và hazard có thể diễn tả qua công thức risk = hazard x thời gian theo dõi. 


Xem hazard. 


Risk ratio (RR, tỉ số nguy cơ): tỉ số của 2 tỉ lệ. Tỉ lệ có khi được hiểu (trong y 
khoa) là "nguy cơ” Ví dụ: lớp học 1 có 100 học sinh, với 90 học sinh tốt 
nghiệp và 10 học sinh không tốt nghiệp; lớp học 2 với 200 học sinh, trong 


đó 150 học sinh tốt nghiệp và 50 không tốt nghiệp: 























Tốt nghiệp _ | Không tốt nghiệp |_ Tilệ tốt nghiệp. 
Lớp học 1 90 10 090 
Lớp học 2 150 50 075 








Với những kết quả trên, tỉ lệ tốt nghiệp của lớp học 1 là 90 / 100 = 0.9, và của 
lớp học 2 là 150 / 200 = 0.75. Do đó, RR = 0.90 / 0.75 = 1.20. 


Xem thêm ødđs ratio. 


1ibrary (epiR) 


dat = matrix(c(13,2163,5,3349), nrow 


rownames (dat) 


colnames (dat) 


c(®Exposure+”, 


c(®D0isease+”, 


2, byrow = 
*®Exposure-”) 


*Disease-“) 


epi.2by2 (dat = as.table(dat), method = "cross. 


sectional”) 


TRUE) 
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Sample (mẫu): là một tập hợp đối tượng được chọn từ một quần thể (population). 

§Scatterplot (biểu đồ tán xạ): một dạng biểu đồ 2 chiều, gồm trục hoành (x) và 
trục tung (y). Trục hoành thường thể hiện biến tiên lượng, và trục tung thể 
hiện biến phụ thuộc. 





®3onasz_— 











r r T 
0 5 10 15 20 25 30 35 
'Years of Experience 








Biểu đồ tán xạ thể hiện mối liên quan giữa năm kinh nghiệm (x) và thu nhập (y). 
§$election bias (bias do chọn mẫu): sai sót do lựa chọn đối tượng nghiên cứu với 
những đặc điểm nào đó và loại bỏ những đối tượng với đặc điểm khác. 
§imulation (mô phỏng): kĩ thuật mô phỏng dữ liệu để đánh giá các đặc điểm 
của biến số hay mô hình nghiên cứu. Ví dụ: mô phỏng biến x với 1000 giá 
trị, có trung bình 20 và độ lệch chuẩn 5, và biến y với trung bình 40 và độ 

lệch chuẩn 10, sao cho x và y có hệ số tương quan là 0.6: 
1ibrary (mvtnorm) 


a = rmvnorm(n=1000, mean=c (20,40) ,sigma=matrix (c (5,0. 6*s 
qrt (50), 
0.6*sqrt (50) ,10),2,2)) 


cor (a) 
Skewness (độ lệch): chỉ số thống kê phản ảnh độ lệch của một phân bố. 
Hàm R: skewness (x) 
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Skewness 














Biểu đồ minh hoạ của một phân bố. 
Biểu đồ trên cùng thể hiện phân bố lệch về phía trái; biểu đồ giữa thể hiện 
một phân bố không có độ lệch; và biểu đồ sau cùng thể hiện độ lệch 
về phía các giá trị cao. 





§Šlope (độ đốc) của mô hình hồi qui tuyến tính. Xem gradient. 


Standard deviation (độ lệch chuẩn) là một thước đo độ đao động hay khác biệt 
trong một mẫu. Ví dụ: cho một biến số gồm các số liệu 9, 10, 10, 12, và 14, 
chúng ta có thể tính trung bình là 11 và độ lệch chuẩn là 2. Độ lệch chuẩn là 
căn số bậc 2 của phương sai. Nếu phương sai là V thì độ lệch chuẩn (SD) là: 
SD = ŸV. Độ lệch chuẩn và số trung bình có cùng đơn vị với biến số. Hàm 
R: sd (x) 

x = rnorm(n=l00, mean=l0, sd=2) 
sd(x) 

Standard error (sai số chuẩn) là ệch chuẩn của một tập hợp óc số. Sai số 
chuẩn (SE) được tính bằng cách lấy độ lệch chuẩn (SD) chia cho căn số bậc 
hai của số cỡ mẫu (n): 
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SE =SD/Jn 
Xem sfandard deviation và variance. 
x = rnorm(n=100, mean=l0, sd=2) 
sd(x) /sqrt (1ength (x) ) 


§tandardized normal distribution (phân bố bình thường chuẩn hoá): là một 
phân bố bình thường có giá trị trung bình là 0 và phương sai là 1. 


Standardize 
950 970 990 1010 1030 1050 1070 32 d0 a1 v2 4 
A Nomal Distribution The Slandard Normal Distribution. 


Biểu đồ bên trái là phân bố bình thường với đơn vị gốc, 
và biểu đồ bên phải là phân bố bình thường chuẩn hoá. 
Diện tích dưới đường biểu diễn của phân bố bình thường chuẩn hoả 
từ -2 đến +2 là 0.95. 
$tatistic (chỉ số thống kê): là một đại lượng được tính toán từ mẫu. Chỉ số thống 
kê cung cấp cho chúng ta thông tin về một đại lượng trong quần thể mà 
chúng ta không biết (còn gọi là tham số hay paramneter). Theo qui ước chung, 
chỉ số thống kê thường được viết tắt bằng mẫu tự La Mã (như zm và s), còn 
đại lượng trong quẩn thể viết bằng mẫu tự Hi Lạp (ụ, ơ). 


Statistical power (độ nhạy của một chỉ số thống kê): là xác suất mà một kiểm 
định thống kê (như t-test, hay Ki bình phương) cho ra kết quả có ý nghĩa 
thống kê trong khi trong thực tế có sự ảnh hưởng. Độ nhạy được tính bằng 
cách lấy 1 trừ cho sai sót loại II (beta). 

§Statistical significance (ý nghĩa thống kê): trong kiểm định thống kê, một trị số 
P <0.05 thường được xem là “có ý nghĩa thống kê” (statistically significant). 
Tuy nhiên, ngưỡng 0.05 gây ra rất nhiều tranh cãi. Ngày nay, có nhiều người 
để nghị ngưỡng để tuyên bố có “ý nghĩa thống kê” nên là 0.001 hay 0.005 
(xem DJ Benjamin et al. Redeñne statistical signifcance. Nature Human 
Behay 1/9/2017). 
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§fatistical test (kiểm định thống kê): là một qui trình tính toán để kiểm định 
một giả thuyết thống kê. Phần lớn các kiểm định thống kê (như t test, F test, 
Ki bình phương) được phát triển để bác bỏ giả thuyết vô hiệu. 

§fatistics (thống kê) là một bộ môn khoa học về thiết kế nghiên cứu và kiểm 
định giả thuyết khoa học qua phân tích dữ liệu nhằm khám phá những 
qui luật trong dữ liệu. Thống kê học cũng có thể xem là bộ môn khoa học 
quan tâm đến khoa học quyết định (decision sciences) trong điểu kiện 
bất định. 

Šfepwise regression: một nhóm phương pháp nhằm tìm mô hình "tối ưu” dựa 
trên giá trị E. Phương pháp này từng có thời rất phổ biến trong phân tích dữ 
liệu, nhưng ngày nay ít ai am hiểu thống kê học sử dụng vì phương pháp này 
thường cho ra những kết quả dương tính giả. 

t-test (kiểm định £): một phương pháp kiểm định giả thuyết về sự khác biệt giữa 
hai nhóm. Phương pháp kiểm định t chỉ áp dụng cho các biến liên tục. Hàm 
R:t.test(x ~ group) hoặc t.test (groupl, group2). 


a 
b 


t,test(a, b) 


c(175, 168, 168, 190, 156, 181, 182, 175, 174, 179) 
c(185, 169, 173, 173, 188, 186, 175, 174, 179, 180) 


x = c(a,b) 
group = c(rep(*a”, 10), rep(*b”, 10)) 
t,test(x ~ group) 


Type I error (sai sót loại I): trong kiểm định giả thuyết, chúng ta có 4 tình huống 











như sau: 
Giả thuyết H0 đúng. h 
Kết quả kiểm định (không có ảnh = Er¿thớng (ó 
hưởng) g 
Có ý nghĩa Sai sót O 
Không có ý nghĩa 0K Sai sótlI 

















Sai sót I xảy ra khi kết quả kiểm định có ý nghĩa thống kê nhưng trong thực 
tế giả thuyết H0 là đúng. Sai sót loại I có thể xem là “đương tính giả” (kết quả xét 
nghiệm dương tính nhưng cá nhân không có bệnh). Xem type II error. 
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Type HI error (sai sót loại II) xảy ra khi kết quả kiểm định không có ý nghĩa thống 
kê nhưng trong thực tế thì giả thuyết vô hiệu là sai (tức có ảnh hưởng). Sai 
sót loại II tương đương với “âm tính giả” (kết quả xét nghiệm âm tính nhưng 
cá nhân mắc bệnh). Xem type Ï error, power. 

Two-sided hypothesis (giả thuyết hai chiểu): tương tự với two-tailed hypothesis. 
Xem giải thích trong one-sided hypothesis. 

Variance (phương sai): là một chỉ số thống kê phản ảnh độ đao động của một 
biến số. Đơn vị của phương sai là bình phương đơn vị gốc của biến số. Ví dụ: 
nếu đơn vị gốc là kg thì phương sai là kg?. Hàm R: var(x): 

x = rnorm(n=100, mean=l0, sd=2) 
var (x) 

Wilcoxon test (kiểm định Wilcoxon): một phương pháp phi tham số áp dụng để 
kiểm định khác biệt giữa hai lần can thiệp (nghiên cứu trước - sau). Phương. 
pháp Wilcoxon tương đương với phương pháp kiểm định t cho mô hình 
nghiên cứu trước - sau (paired t test). 

Hàm R: wilcox.test (baseline, followup, paired=TRUE) 

Wilks-Shapiro test (kiểm định Wilks-Shapiro): một phương pháp kiểm định 
xem biến số có thật sự tuân theo luật phân bố chuẩn hay không. 

Z-score (chỉ số z): là một dạng hoán chuyển từ một biến liên tục. Nếu biến liên 
tục X có số trung bình là 4t và độ lệch chuẩn là ơ, chỉ số z được định nghĩa 
như sau: z -(“*) . Biến z có trung bình là 0 và độ lệch chuẩn là 1. 

ơ 


z transformation (phép hoán chuyển z): Xem Fisherš z transformation. 
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..... 





diễn giải trong sách. Tôi dùng thuật ngữ tiếng Anh để bạn đọc dễ theo 

dõi. Chú ý rằng số trong ngoặc để cập đến danh số của câu hỏi. Ví dụ như 
“Analysis of variance (10.1)” có nghĩa là phần phân tích phương sai được giải 
thích trong câu hỏi 10.1 (chương 10, câu hỏi 1). 


T rong phẩn này, bạn đọc sẽ tìm thấy những vấn để và phương pháp được 


Analysis of variance (10.1) 

Analysis of covariance (10.4) 

Bayesian model averaging for linear regression (11.10) 
Bayesian model averaging for Cox model (13.7) 
Bayesian model averaging for logistic regression (12.4) 
Bayesian test for two proportions (9.9) 

Binomial đistribution (4.3) 

Central Limit Theorem (4.7) 

Chi-squared test (9.10) 

Cluster analysis (14.3) 

Confidence interval (6.3) 
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Cox proportional hazards model (13.3, 13.4, 13.5) 
Diagnostic measures (16.5) 

Discrimination for Cox model (13.5) 

Exact confidence interval for a proportion (7.2) 
Exponential distribution (4.5) 

Imputation (16.12) 

Incidence rate (7.3) 

Incidence rate ratio (9.3, 9.4) 

Integrated discrimination improvement (13.6) 
Interaction effect (11.7) 

Kaplan-Meier curve (13.1, 13.2) 

Law of large number (4.6) 

Life-table method (13.1, 13.2) 

Linear discriminant analysis (14.1) 

Log-rank test (13.2) 

Logistic regression for matched case control study (9.8) 
Logistic regression model (12.1, 12.2) 

Machine Learning (14.4) 

Mean (6.1) 

Median (6.8) 

Meta-analysis, Bayesian method (15.3) 
Meta-analysis for binary đata (15.1, 15.2) 
Meta-analysis for continuous đata (15.4) 

Missing values (16.12) 

Mixed-effects modeling (10.5) 

Multinomial logistic regression (12.6) 

Multiple Imputation by Chained Equation (16.12) 


Multiple linear regression model (11.8) 
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Net reclassification index (13.6) 
Normal distributon (4.1, 4.2, 16.1) 
Number needed to treat (NNT, 16.11) 
Odds ratio (9.7, 12.1) 

Poisson distribution (7.4, 7.5) 
Poisson regression (12.7, 12.8) 
Polynomial regression (11.4) 
Population attributable risk (16.9, 16.10) 
Positive predictive value (16.4) 
Post-hoc comparison (10.2) 
Prevalence estimate (16.7) 

Prevalence rate (7.1) 

Prevalence ratio (9.2) 

Principal component analysis (14.2) 
Random forest (14.4) 

Rate ratio (9.5, 9.6) 

Receiver operating characteristic curve (12.5, 16.6) 
Reclassification analysis (13.6) 
Relative importance regression (11.9) 
Relative risk (9.2, 9.5, 9.6) 

Repeated ANOVA (10.4) 

Risk ratio (9.2, 9.5, 9,6) 

Robust regression (11.3) 

Rubust t-test (8.6) 

Sample size for one mean (17.2) 
Sample size for one proportion (17.1) 
Sample size for two means (17.4) 


Sample size for two proportions (17.3) 
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Về tác giả 





Trường Y, Đại học New South Wales (UNSW Sydney), giáo sư Y khoa 

Tiên lượng (Predictive Medicine) thuộc Đại học Công nghệ Sydney 
(UTS), và giáo sư adjunct Dịch tế học và thống kê học thuộc Trường Y, Đại học 
Notre Dame Australia. Tác giả tốt nghiệp tiến sĩ y khoa và tiến sĩ khoa học tại 
Ức, và là người thứ 33 được UNSW Sydney trao bằng tiến sĩ khoa học (D.§c). 
Tác giả là Principal Fellow, đứng đầu một labo nghiên cứu loãng xương thuộc 
Viện nghiên cứu y khoa Garvan (Úc), và một labo nghiên cứu cơ xương thuộc 
Trường Đại học Tôn Đức Thắng. Ông đã công bố gần 300 công trình nghiên 
cứu trên các tập san nổi tiếng trên thế giới, kể cả Nature, Science, JAMA, BMJ, 
Laneet, và New England Journal oƒ Medicine. Ông là một trong những nhà nghiên 
cứu y khoa được trích dẫn nhiều nhất trên thế giới. Ông là thành viên hoặc biên 
tập viên trong hội đồng biên tập của các tập san khoa học quốc tế như Journal 
9ƒ Bone and Mineral Research, JBMR Plus, Journal oƒ Chnical Endocrinology and 
Metabolism, Journal oƒ the Endocrine Society, Osteoporosis International, PLoS, 
PeerJ], và BMC. Ông phụ trách duyệt phương pháp thống kê cho các tập san như 
JAMA, Lancet và ]BMR. Ở Việt Nam, trong 15 năm qua ông đã giảng cho khoảng 
20 workshop với tổng số hơn 2000 bác sĩ và nhà khoa học tham dự. Ông đã xuất 
bản 10 cuốn sách về khoa học, y tế, và giáo dục ở trong nước. Ông được trao 
nhiều giải thưởng ở nước ngoài và trong nước về những thành tích khoa học và 
giáo dục. 


T? giả Nguyễn Văn Tuấn hiện giữ ba chức giáo sư ở Úc: giáo sư thuộc 





'lpe/fielun heploerg 





'lpe/fieulun heploerg 





Hai trường phái phân tích thống kê 














Tính toán xác suất 


Phân tích mô tả biến liên tục ----------- 
Phân tích mô tả biến phân loại --------~-~-~~~~~~~~~~~~-=========~~~~=~~~~=~~~~ 
So sánh hai nhóm: biến liên tục ------- 
Phân tích so sánh hai tỉ lệ -------------~-~~-~~~-~~~~~~~=~=====================~= 
10. Phân tích phương sai-- 
11. Mô hình hồi qui tuyến tính 
12. Mô hình hồi qui logistic -- 
13. Phân tích sống còn ---------- 
14. Phân tích đa biến và “machine learning” 
15. Phân tích tổng hợp (meta-analysis)--- 
16. Một số phương pháp phân tích dịch tễ học—-----------~----~~~~---~~=~~~~=~ 
17. Ước tính cỡ mẫu cho nghiên cứu khoa học--- 
18. Những sai sót và thiếu sót phổ biến trong phân tích dữ liệu: 
19. Thuật ngữ thống kê căn bản ----- 
20. Index- 


T 
2 
3, 
4. 
5. Phân tích mô tả bằng biểu đồ: 
6, 
7. 
8. 
9. 














21. Về tác giả —---—- 
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la F00001 0)18e10)0142101)4.9012ã9)0/.2040/)090121010-0)0)1/011.45(0) 4.14 
thù, Sự đặc thù là ở hình thức vấn đáp, vốn chưa được áp dụng trong các sách 
về khoa học dữ liệu trên thế giới. Khi biên soạn cuốn sách, chúng tôi tự đặt 
mình trong tình huống của một nhà khoa học bận rộn và đang cẩn một 
I001/000503)17193010120108400021011Ä) 1090/40/1091) 0:1-12100012041/.)/A0061002 
những chỉ tiết về lí thuyết đằng sau phương pháp, nhà khoa học cẩn hiểu ý 
[10000 /91)0)0)/30)11)21591)01211270)0:00/ AC 0A10 020V) 110/00 2000 lẠL) 
0)0/1//02))010/49/1400) 19 ciểu)) 9 


MP tiêu của chúng tôi là giúp cho các nhà khoa học tiếp cận với các 
[D01/9/02090-19)012009-10215-12001/30))010019100.9.<2130419)12)09001)134001).49)10/1.0140)11.4 
2941200100001 19///01))/49409/9/002/1/20)///0).10)104020/14))0)0).,0001)/48 
khoa học, giới khoa học có thể đi đến những khám phá hào hứng. Chúng tôi 
chọn R làm ngôn ngữ máy tính để triển khai các phương pháp phân tích dữ 
|H0200/0.0ÿ001/001./01/.1000,1)240/).00009.00009.))0.0112)0000/.09)100045.10.00001.240112) 
"509/A/000590<.1200)101)0/1002042/)/2404004.))0212001/0/01.00011)000) 71101000) 
hiện đại, và qua đó giúp "dân chủ hóa" những phương pháp khoa học mà có. 
thời chỉ được các nhà khoa học ở các nước phương Tây tiếp cận. Bây giờ, tôi 
mời các bạn cùng khám phá thống kê học qua những câu hỏi và câu trả lời 
trong cuốn sách bạn đang cầm trên tay. 

~ Nguyễn Văn Tuấn - 
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